Данные обучения могут быть чистыми или зашумленными, что влияет на производительность модели машинного обучения. В этой статье обсуждаются оптимальные стратегии в каждой ситуации. Содержание основано на статье [5].

Актуальные проблемы сбора и аннотирования данных

В настоящее время глубокое обучение является жизненно важной технологией для разработки ИИ. Эффективность этого метода зависит от (1) количества обучающих выборок и (2) качества аннотации данных. Однако большой объем обучающих данных усложняет управление работой с аннотациями. Например, на рис. 1 показаны четыре обучающие выборки для простой задачи классификации изображений: человек против лошади. Чтобы собрать огромное количество изображений для этих двух категорий, можно просканировать данные в Интернете. Большинство изображений различаются между человеком и лошадью, как показано на рис. 1 а, б. Однако обычно можно увидеть такие зашумленные изображения, как на рис. 1 c, d, где аннотаторы изо всех сил пытаются решить, какая категория им больше подходит. Ясно, что даже для этого простого распознавания двух категорий сбор данных и аннотация сложны.

Основываясь на критериях чистоты, мы можем разделить обучающий набор данных на три категории: чистый, зашумленный, не уверен. Как видно на рис. 2, существует компромисс между чистотой данных и управлением аннотациями. Во-первых, чистый помечается, если сбор данных и аннотирование осуществляются тщательно, что требует много времени и рабочей силы. Во-вторых, метка noisyобозначает просканированный набор данных (например, с помощью icrawler с использованием ключевых слов), который затем напрямую передается в модель глубокого обучения для обучение. Наконец, мы используем термин неопределенныйдля обозначения набора данных с приблизительным контролем (например, один раунд) процесса очистки. Затем, несмотря на один раунд оценки, мы все еще не уверены, что аннотация является полностью точной.

Выборка и взвешивание тренировочных данных

Различные типы обучающих наборов данных обладают разными свойствами. Следовательно, важно использовать разные стратегии выборки и взвешивания для каждого из этих наборов данных, чтобы оптимизировать производительность модели. В остальных разделах я расскажу о четырех стратегиях выборки, озаглавленных равномерный, автономный, поиск сложных примеров и активный уклон. обучение. Для каждого метода выборки также обсуждается решение о том, следует ли нам придавать вес, чтобы еще больше подчеркнуть некоторые конкретные обучающие выборки.

Униформа

При обучении модели машинного обучения из-за ограниченного объема памяти компьютера набор обучающих выборок разбивается на более мелкие партии. Одна итерация будет работать с прямой и обратной связью одной партии. В определенный момент вопрос о том, какие образцы следует отобрать для включения в партию, остается под вопросом. Тривиальное решение, называемое uniform, заключается в одинаковой обработке всех образцов. Другими словами, вероятности выбора каждой выборки одинаковы. Мы можем использовать один из двух вариантов этого метода. Во-первых, метод, а именно SGD-Uni, выбирает набор обучающих выборок на основе вероятности:

для подачи в модель. Затем он помещает образцы обратно в обучающий набор для участия в следующем отборе. Во-вторых, другой метод, а именно SGD-Scan, основан на вероятности:

для выбора обучающих выборок. После одного раунда отбора образцов этот метод пропускает выбранные образцы и рассматривает только остальные в очереди. Хотя SGD-Uni может пропускать некоторые обучающие образцы, SGD-Scan сканирует все данные. Следовательно, SGD-Scan, скорее всего, будет работать лучше, чем SGD-Uni.

Самостоятельное обучение

Для человека процесс обучения обычно рассматривается как стратегия от простого к сложному. Это вдохновляет нейронную сеть на процесс обучения, называемый обучение по программе [1], который изучает модель машинного обучения от более простых к более сложным образцам. Однако аннотаторам сложно определить уровень сложности каждой обучающей выборки. Кроме того, человек и машина могут не совпадать во взглядах на то, является ли образец простым или сложным. Метод так называемого самостоятельного обучения [2], или сокращенно SGD-SE, предлагает использовать потерю текущей модели для оценить уровень сложности обучающей выборки. В частности, меньшие потери между предсказанной и фактической меткой означают, что модель более уверенно работает с образцом. И наоборот, большая потеря соответствует меньшему показателю достоверности. Формулировка вероятности выбора выборки i для приоритетной очереди обучающих данных:

где первый фактор означает показатель достоверности, который модель правильно предсказывает для выборки i, а второй фактор — параметр смещения. Этот метод показывает большую надежность при обучении наборов данных с зашумленными метками [3].

Обратите внимание, что при этой стратегии выборки модель сканирует более простые выборки чаще, чем более сложные. Это не означает, что модель искажает свои параметры, чтобы удовлетворить более простые образцы больше, чем более сложные. Чтобы сделать это смещение, стратегия взвешивания, так называемая SGD-WD, будет использоваться с весом выборки, сформулированным следующим образом:

где знаменатель направлен на нормализацию весов выборки.

Майнинг сложных примеров

Обучение по учебной программе [1] имеет некоторые недостатки. Во-первых, более простые выборки способствуют меньшим градиентам, что приводит к медленной сходимости модели. Во-вторых, сложные обучающие образцы состоят из ключевых функций, позволяющих работать со сложными тестовыми образцами. Например, изображение только головы собаки сложно, но это хороший образец для обучения модели распознавания собак. По этому сложному образцу модель может распознать собаку, которая появилась только с головой, а тело спрятано в кустах или диване. Следовательно, больший приоритет для сложных образцов во всем тренировочном процессе может привести к более высокой производительности. Следовательно, в случае чистых обучающих данных более применима стратегия майнинга сложных примеров [4], короче SGD-SD. Этот метод обеспечивает большую частоту выборки, чем модель менее уверена:

Затем мы можем позволить модели больше сосредоточиться на жестких образцах, придав им больший вес:

в функции потерь. Этот метод называется SGD-WD.

Активное предвзятое обучение

Оценка аннотаций каждой отдельной обучающей выборки занимает много времени. Кроме того, насколько «чисто» достаточно, чтобы выбрать одну из этих двух стратегий обучения. Активное обучение [5], сокращенно SGD-STC, уравновешивает их, фокусируясь на образцах, остающихся на границе предсказания. Метод ищет, какой образец является «почти правильным» или «почти неправильным», а затем подталкивает их к правильной стороне. Вероятность выбора такой выборки формулируется следующим образом:

Мы также можем проверить, может ли добавление весов к «граничным» выборкам улучшить производительность модели:

Метод называется SGD-WTC.

Результаты экспериментов

Чтобы оценить стратегии выборки и взвешивания наборов данных с разным уровнем чистоты, в статье [5] проводятся эксперименты по двум задачам машинного обучения. Первая проблема — распознавание рукописного текста, оцениваемое на чистом наборе данных MNIST. Случайному выбору 10% обучающих изображений дополнительно присваиваются метки, а именно Noisy MNIST, для оценки надежности представленных методов обучения на зашумленных обучающих выборках. Вторая проблема — классификация изображений, оцениваемая по набору данных CIFAR. Изображения были значительно уменьшены до 32 × 32 × 3, чтобы усложнить задачу даже для аннотаторов.

Когда известен уровень чистоты собранных данных, какая стратегия выборки или взвешивания предпочтительнее? Таблица 1 предлагает ответ. Ниже приводится анализ результатов:

Единообразный. В таблице 1 показано, что ошибка тестирования с помощью SGD-Scan относительно меньше, чем с помощью SGD-Uni. Пробелы между двумя методами не значительны. Из четырех проблем униформа — не лучшее решение для выборки данных.

Самостоятельное обучение. Как видно из таблицы 1, для зашумленных данных наиболее эффективным методом является стратегия "от простого к сложному" (SGD-SE, SGD-WE). Однако SGD-WE, который уделяет больше внимания простым образцам, чем SGD-SE, по-видимому, вызывает относительно больше ошибок, чем SGD-SE. Это указывает на то, что следует тщательно обдумывать, какое внимание следует уделять легким образцам.

Анализ сложных примеров. В случае безусловно чистых данных уделение большего внимания сложным примерам (SGDSD и SGD-WD) дает лучшие результаты. Это указывает на то, что более сложные образцы содержат больше отличительных признаков, чем более простые образцы.

Активное обучение предвзятости. Однако обычно мы не уверены в том, насколько беспорядочны данные. Кроме того, у нас может не хватить компьютерных ресурсов, чтобы проверить, приводит ли автономный или жесткий майнинг к лучшим результатам. Следовательно, необходим один метод, который решает оба этих двух случая с конкурентоспособной производительностью. Таблица 2 показывает, что активное смещение является таким методом. Когда обучающие данные чистые, жесткий майнинг вместе с активным смещением показывает лучшие результаты. В противном случае, в случае зашумленных данных, выдающаяся производительность принадлежит собственному темпу. Однако разрывы между этим методом с активным смещением не значительны. С другой стороны, между выборкой и взвешиванием нет большой разницы. Это указывает на то, что, чтобы уложиться в срочные сроки, исследователь может выбрать один из них, не беспокоясь о том, как еще оптимизировать производительность.

Вывод

На рис. 3 показаны соответствующие методы обучения для каждой ситуации с обучающими данными. Самостоятельное обучение без взвешивания выборки предпочтительнее для зашумленных данных меток. Для чистых данных следует выбирать жесткий пример интеллектуального анализа вместе с взвешиванием выборки. Обучение с активным смещением является лучшим выбором, если точность обучающих данных не определена.

использованная литература

[1] Йошуа Бенжио, Джером Лурадур, Ронан Коллоберт и Джейсон Уэстон. Обучение по учебной программе. ИКМЛ 2009.

[2] М. Паван Кумар, Бенджамин Пакер и Дафна Коллер. Самообучение для моделей со скрытыми переменными. НИПС 2010.

[3] Тэ Пи, Си Ли, Чжунфэй Чжан, Дэю Мэн, Фей Ву, Цзюнь Сяо и Ютин Чжуан. Самостоятельное ускоренное обучение для классификации. ИИЦАИ 2016.

[4] А. Шривастава, А. Гупта и Р. Гиршик. Обучение детекторов объектов на основе регионов с онлайн-анализом сложных примеров. ЦВПР 2016.

[5] Хоу-Шиуан Чанг, Эрик Лернед-Миллер и Эндрю МакКаллум. Активное смещение: обучение более точных нейронных сетей за счет выделения выборок с высокой дисперсией. НИП 2017.