Многие новые проекты машинного обучения начинаются с минимального количества выборочных данных, если таковые имеются. Хуже того, они, как правило, не используют преимущества «скрытой жемчужины» - немаркированных данных, сосредотачиваясь на очевидных, помеченных данных. Потенциальным решением является полу-контролируемое обучение (SSL), при котором для прогнозирования используются как помеченные, так и немеченые образцы.

В этом сообщении блога показано, как полууправляемое обучение улучшает производительность модели, особенно с небольшими выборками помеченных данных. Мы также показываем, что использование достоверности полууправляемой модели для выбора образцов, которые будут помечены псевдо-метками, превосходит выбор фиксированного размера.

К сожалению, мы не наблюдали никакого влияния псевдо-меток взвешивания выборки или самообучения. Наши результаты подтверждаются экспериментами с текстовыми данными (AG News), обнаружением мошенничества с кредитными картами и дедупликацией геолокации (Nomao).

Краткое введение в обучение без учителя

Полуконтроль - это естественное понятие, которое часто используется неявно. Например, при классификации корпоративных веб-страниц от личных кажется естественным рассматривать весь домен как личный, если две или три его страницы уже были классифицированы как личные. Присвоение одной и той же метки схожим элементам можно рассматривать в машинном обучении как «распространение» метки на соседние образцы.

Пример игрушки может выглядеть так:

Хорошее место для начала - полууправляемый модуль scikit-learn. Он реализует две разновидности полууправляемых методов, которые выполняют вывод меток для немаркированных данных с использованием подхода на основе графов. Распространение меток [1] ​​вычисляет матрицу сходства между образцами и использует подход на основе KNN для распространения образцов. Распространение меток [2] имеет аналогичный подход, но добавляет регуляризацию, чтобы быть более устойчивым к шуму. Мы выбрали последнее для лучшей производительности.

Хотя мы ограничили наш эксперимент распространением меток, мы исследовали другие традиционные полууправляемые алгоритмы:

  • Contrastive Pessimistic Rikelihood Estimation (CPLE), созданный на основе [3] и доступный в полуобучении, методе, который гарантирует, что добавление псевдо-помеченных данных к обучающему набору не ухудшит производительность классификатора,
  • Наивный Байес в гранате, который выполняет ванильный алгоритм максимизации ожидания.

Базовая (контролируемая) модель также может использоваться для непосредственного выполнения псевдо-маркировки: это называется самообучением. Мы также сообщаем о результатах наших экспериментов с помощью самообучения.

Эксперименты

Теперь, когда мы объяснили интуицию, возникает много естественных вопросов.

Улучшает ли полууправляемое обучение производительность модели? Как насчет самообучения?

Также неясно, какие образцы должны быть помечены псевдо-метками и как они должны быть интегрированы в обучающий набор (например, с использованием весов выборок). Мы попытаемся ответить на эти вопросы в следующих экспериментах.

Периметр. Наша цель в этом сообщении в блоге - начать с простейших полууправляемых подходов. Поэтому мы не будем говорить о методах глубокого обучения, состязательных методах или увеличении данных.

Экспериментальная установка. Для наших экспериментов мы предположим, что набор данных train частично помечен. Классический контролируемый подход будет использовать только доступные помеченные выборки, в то время как полууправляемый будет использовать весь обучающий набор, как с помеченными, так и с немаркированными данными.

На каждой итерации мы делаем следующее:

  • Установите SSL-модель на данные train с пометкой и без метки и используйте ее для псевдо-пометки части (или всех) немаркированных данных.
  • Обучите контролируемую модель как с помеченными, так и с псевдо-помеченными данными

Мы также обучаем полностью контролируемую модель без псевдо-помеченных данных на каждой итерации и называем ее базовой моделью.

Графики. Размер обучающей выборки указывается по оси X, а по оси Y - оценка модели. Доверительные интервалы находятся в 10-м и 90-м процентилях.

Наборы данных

AG News. AG News - это задача классификации новостей с четырьмя классами: мир, спорт, бизнес и наука / техника. В нем 150 000 образцов. Мы провели наши эксперименты на подмножестве из 10 000 образцов. Текст предварительно обрабатывается с помощью вложений GloVe.

Откройте набор данных CreditCardFraudDetection ML. Это сильно несбалансированный набор данных, состоящий из 284 000 транзакций и всего около 500 мошеннических. Мы используем случайный лес с параметрами scikit-learn по умолчанию. Обратите внимание, что для этого набора данных мы используем показатель производительности F1, поскольку точность чувствительна к дисбалансу классов.

Откройте набор данных Nomao ML. Это набор данных дедупликации геолокации. Каждый образец содержит характеристики и меры сходства, извлеченные из двух образцов. Это бинарная классификация по 34 000 выборок. Мы снова используем случайный лес с параметрами scikit-learn по умолчанию.

Сравнение методов выбора псевдо-меток

Подобно другим методам машинного обучения, полууправляемые алгоритмы могут маркировать образцы с большей или меньшей степенью уверенности. Здесь мы рассматриваем две стратегии:

  • Фиксированная доля набора данных. Мы выбираем верхние n с n = ratio * (количество помеченных образцов), в соответствии с оценками достоверности. Этот метод называется «Псевдо-метки отношения».
  • Абсолютный порог уверенности в маркировке. Этот метод обозначен в легенде как «Выбор псевдометок› Порог »и упоминается как« основанный на неопределенности ».

Новости AG. Этот рисунок показывает, что SSL, основанный на неопределенности, является единственной стратегией с избыточной эффективностью. SSL полезен при небольшом количестве образцов, что имеет смысл, поскольку, как только набор данных достигает заданного размера, пространство функций было исследовано, и SSL может только подтвердить прогноз модели.

Обнаружение мошенничества с кредитными картами. И здесь подход, основанный на неопределенности, является явным победителем в этом наборе данных. Это также подтверждает, что SSL наиболее полезен, когда помечено небольшое количество образцов.

Номао. В этом наборе данных SSL явно не работает. Однако мы наблюдаем, что методы, основанные на неопределенности, осознают низкое качество их прогнозов, и поэтому отбирается мало выборок. В результате их производительность сопоставима с базовой моделью.

Заключение. SSL на основе неопределенности равен или лучше базовой модели в большинстве наших экспериментов. На AG News они немного отстают, но размер эффекта слишком мал, чтобы сделать однозначный вывод. Выбор псевдометок на основе порога вероятности, а не простого соотношения истинных меток кажется наиболее эффективным методом, и если он не всегда эффективен, он редко ухудшает базовый классификатор.

Использование выборочных весов на псевдо-этикетках

В нашем эксперименте мы предполагаем, что помеченные данные более надежны, чем псевдо-помеченные данные. Таким образом, мы хотели бы предотвратить конкуренцию данных с псевдонимами с помеченными данными, как это делается в CPLE.

Чтобы справиться с неопределенностью, содержащейся в псевдо-метках, мы предлагаем занижать их вес по сравнению с помеченными данными с помощью следующих двух различных стратегий:

  • Абсолютный вес с разными жестко заданными значениями.
  • Относительный вес с использованием показателя достоверности, связанного с выборками, поскольку использование этого значения оказалось полезным в других экспериментах.

Наблюдения. Что касается новостей AG и обнаружения мошенничества, разные стратегии взвешивания не приносят дополнительного повышения, но и не влияют на производительность. Мы могли подумать, что недооценка псевдо-маркированных образцов уменьшила бы подъем вниз, создаваемый SSL, но это не так.

Заключение. В наших трех экспериментах взвешивание псевдо-меток практически не отличается от невзвешенного метода. Обратите внимание, что это может быть связано с тем, что мы использовали метод псевдо-маркировки, который уже отбирает лучшие образцы. Если бы веса действительно имели значение, то взвешивание с абсолютными значениями повлияло бы на результаты, в частности, на Nomao.

Самостоятельное обучение

Как подробно описано во введении, самообучение состоит из выполнения частично контролируемого обучения с использованием самой модели в качестве псевдо-этикетировщика. Идея, лежащая в основе этого, состоит в том, чтобы укрепить убеждения моделей путем повторения в пространстве образцов.

Заключение. В наших экспериментах нам не удалось добиться лучших результатов с помощью самообучения. Более поздние работы [4] сочетают самообучение и увеличение данных - генерации образцов, похожих на помеченные, - чтобы получить лучшую производительность.

Выводы: новое открытие полу-контролируемого обучения

Ванильные полу-контролируемые методы обучения заслуживают большего внимания: они могут быть полезны для улучшения базовой модели при условии, что используется правильная стратегия для выбора образцов для псевдо-меток.

Мы увидели, что полу-контролируемое обучение лучше всего работает на меньшем количестве образцов, что делает его подходящим методом для изучения в начале проекта.

В наших экспериментах использование порога доверительной вероятности, оцененной методом Label Spreading, представляется хорошей стратегией. Это также предотвращает потерю производительности для наборов данных, в которых SSL не работает. С другой стороны, мы не заметили никаких улучшений, связанных с взвешиванием выборки.

Хотя само по себе самообучение не дало положительных результатов, было бы интересно изучить, может ли быть полезной новая стратегия, сочетающая самообучение и полуноконтроль. Например, мы могли бы выбрать выборки, в которых оба классификатора согласны, чтобы добавить определенности новым псевдометкам, или где они не согласны, чтобы сосредоточиться на серых областях.

использованная литература

[1] Сяоцзинь Чжу и Зубин Гахрамани. « Изучение маркированных и немаркированных данных с распространением меток .» (2002).

[2] Чжоу, Денгён и др. « Обучение с локальной и глобальной согласованностью Достижения в области нейронных систем обработки информации. 2004 г.

[3] Луг, Марко. « Сравнительная пессимистическая оценка правдоподобия для полууправляемой классификации Транзакции IEEE по анализу шаблонов и машинному интеллекту 38.3 (2015): 462–475.

[4] Сон, Кихюк и др. Fixmatch: Упрощение обучения с полу-контролируемым обучением с последовательностью и уверенностью. препринт arXiv arXiv: 2001.07685 (2020).