Многие новые проекты машинного обучения начинаются с минимального количества выборочных данных, если таковые имеются. Хуже того, они, как правило, не используют преимущества «скрытой жемчужины» - немаркированных данных, сосредотачиваясь на очевидных, помеченных данных. Потенциальным решением является полу-контролируемое обучение (SSL), при котором для прогнозирования используются как помеченные, так и немеченые образцы.
В этом сообщении блога показано, как полууправляемое обучение улучшает производительность модели, особенно с небольшими выборками помеченных данных. Мы также показываем, что использование достоверности полууправляемой модели для выбора образцов, которые будут помечены псевдо-метками, превосходит выбор фиксированного размера.
К сожалению, мы не наблюдали никакого влияния псевдо-меток взвешивания выборки или самообучения. Наши результаты подтверждаются экспериментами с текстовыми данными (AG News), обнаружением мошенничества с кредитными картами и дедупликацией геолокации (Nomao).
Краткое введение в обучение без учителя
Полуконтроль - это естественное понятие, которое часто используется неявно. Например, при классификации корпоративных веб-страниц от личных кажется естественным рассматривать весь домен как личный, если две или три его страницы уже были классифицированы как личные. Присвоение одной и той же метки схожим элементам можно рассматривать в машинном обучении как «распространение» метки на соседние образцы.
Пример игрушки может выглядеть так:
Хорошее место для начала - полууправляемый модуль scikit-learn. Он реализует две разновидности полууправляемых методов, которые выполняют вывод меток для немаркированных данных с использованием подхода на основе графов. Распространение меток [1] вычисляет матрицу сходства между образцами и использует подход на основе KNN для распространения образцов. Распространение меток [2] имеет аналогичный подход, но добавляет регуляризацию, чтобы быть более устойчивым к шуму. Мы выбрали последнее для лучшей производительности.
Хотя мы ограничили наш эксперимент распространением меток, мы исследовали другие традиционные полууправляемые алгоритмы:
- Contrastive Pessimistic Rikelihood Estimation (CPLE), созданный на основе [3] и доступный в полуобучении, методе, который гарантирует, что добавление псевдо-помеченных данных к обучающему набору не ухудшит производительность классификатора,
- Наивный Байес в гранате, который выполняет ванильный алгоритм максимизации ожидания.
Базовая (контролируемая) модель также может использоваться для непосредственного выполнения псевдо-маркировки: это называется самообучением. Мы также сообщаем о результатах наших экспериментов с помощью самообучения.
Эксперименты
Теперь, когда мы объяснили интуицию, возникает много естественных вопросов.
Улучшает ли полууправляемое обучение производительность модели? Как насчет самообучения?
Также неясно, какие образцы должны быть помечены псевдо-метками и как они должны быть интегрированы в обучающий набор (например, с использованием весов выборок). Мы попытаемся ответить на эти вопросы в следующих экспериментах.
Периметр. Наша цель в этом сообщении в блоге - начать с простейших полууправляемых подходов. Поэтому мы не будем говорить о методах глубокого обучения, состязательных методах или увеличении данных.
Экспериментальная установка. Для наших экспериментов мы предположим, что набор данных train частично помечен. Классический контролируемый подход будет использовать только доступные помеченные выборки, в то время как полууправляемый будет использовать весь обучающий набор, как с помеченными, так и с немаркированными данными.
На каждой итерации мы делаем следующее:
- Установите SSL-модель на данные train с пометкой и без метки и используйте ее для псевдо-пометки части (или всех) немаркированных данных.
- Обучите контролируемую модель как с помеченными, так и с псевдо-помеченными данными
Мы также обучаем полностью контролируемую модель без псевдо-помеченных данных на каждой итерации и называем ее базовой моделью.
Графики. Размер обучающей выборки указывается по оси X, а по оси Y - оценка модели. Доверительные интервалы находятся в 10-м и 90-м процентилях.
Наборы данных
AG News. AG News - это задача классификации новостей с четырьмя классами: мир, спорт, бизнес и наука / техника. В нем 150 000 образцов. Мы провели наши эксперименты на подмножестве из 10 000 образцов. Текст предварительно обрабатывается с помощью вложений GloVe.
Откройте набор данных CreditCardFraudDetection ML. Это сильно несбалансированный набор данных, состоящий из 284 000 транзакций и всего около 500 мошеннических. Мы используем случайный лес с параметрами scikit-learn по умолчанию. Обратите внимание, что для этого набора данных мы используем показатель производительности F1, поскольку точность чувствительна к дисбалансу классов.
Откройте набор данных Nomao ML. Это набор данных дедупликации геолокации. Каждый образец содержит характеристики и меры сходства, извлеченные из двух образцов. Это бинарная классификация по 34 000 выборок. Мы снова используем случайный лес с параметрами scikit-learn по умолчанию.
Сравнение методов выбора псевдо-меток
Подобно другим методам машинного обучения, полууправляемые алгоритмы могут маркировать образцы с большей или меньшей степенью уверенности. Здесь мы рассматриваем две стратегии:
- Фиксированная доля набора данных. Мы выбираем верхние n с n = ratio * (количество помеченных образцов), в соответствии с оценками достоверности. Этот метод называется «Псевдо-метки отношения».
- Абсолютный порог уверенности в маркировке. Этот метод обозначен в легенде как «Выбор псевдометок› Порог »и упоминается как« основанный на неопределенности ».
Новости AG. Этот рисунок показывает, что SSL, основанный на неопределенности, является единственной стратегией с избыточной эффективностью. SSL полезен при небольшом количестве образцов, что имеет смысл, поскольку, как только набор данных достигает заданного размера, пространство функций было исследовано, и SSL может только подтвердить прогноз модели.
Обнаружение мошенничества с кредитными картами. И здесь подход, основанный на неопределенности, является явным победителем в этом наборе данных. Это также подтверждает, что SSL наиболее полезен, когда помечено небольшое количество образцов.
Номао. В этом наборе данных SSL явно не работает. Однако мы наблюдаем, что методы, основанные на неопределенности, осознают низкое качество их прогнозов, и поэтому отбирается мало выборок. В результате их производительность сопоставима с базовой моделью.
Заключение. SSL на основе неопределенности равен или лучше базовой модели в большинстве наших экспериментов. На AG News они немного отстают, но размер эффекта слишком мал, чтобы сделать однозначный вывод. Выбор псевдометок на основе порога вероятности, а не простого соотношения истинных меток кажется наиболее эффективным методом, и если он не всегда эффективен, он редко ухудшает базовый классификатор.
Использование выборочных весов на псевдо-этикетках
В нашем эксперименте мы предполагаем, что помеченные данные более надежны, чем псевдо-помеченные данные. Таким образом, мы хотели бы предотвратить конкуренцию данных с псевдонимами с помеченными данными, как это делается в CPLE.
Чтобы справиться с неопределенностью, содержащейся в псевдо-метках, мы предлагаем занижать их вес по сравнению с помеченными данными с помощью следующих двух различных стратегий:
- Абсолютный вес с разными жестко заданными значениями.
- Относительный вес с использованием показателя достоверности, связанного с выборками, поскольку использование этого значения оказалось полезным в других экспериментах.
Наблюдения. Что касается новостей AG и обнаружения мошенничества, разные стратегии взвешивания не приносят дополнительного повышения, но и не влияют на производительность. Мы могли подумать, что недооценка псевдо-маркированных образцов уменьшила бы подъем вниз, создаваемый SSL, но это не так.
Заключение. В наших трех экспериментах взвешивание псевдо-меток практически не отличается от невзвешенного метода. Обратите внимание, что это может быть связано с тем, что мы использовали метод псевдо-маркировки, который уже отбирает лучшие образцы. Если бы веса действительно имели значение, то взвешивание с абсолютными значениями повлияло бы на результаты, в частности, на Nomao.
Самостоятельное обучение
Как подробно описано во введении, самообучение состоит из выполнения частично контролируемого обучения с использованием самой модели в качестве псевдо-этикетировщика. Идея, лежащая в основе этого, состоит в том, чтобы укрепить убеждения моделей путем повторения в пространстве образцов.
Заключение. В наших экспериментах нам не удалось добиться лучших результатов с помощью самообучения. Более поздние работы [4] сочетают самообучение и увеличение данных - генерации образцов, похожих на помеченные, - чтобы получить лучшую производительность.
Выводы: новое открытие полу-контролируемого обучения
Ванильные полу-контролируемые методы обучения заслуживают большего внимания: они могут быть полезны для улучшения базовой модели при условии, что используется правильная стратегия для выбора образцов для псевдо-меток.
Мы увидели, что полу-контролируемое обучение лучше всего работает на меньшем количестве образцов, что делает его подходящим методом для изучения в начале проекта.
В наших экспериментах использование порога доверительной вероятности, оцененной методом Label Spreading, представляется хорошей стратегией. Это также предотвращает потерю производительности для наборов данных, в которых SSL не работает. С другой стороны, мы не заметили никаких улучшений, связанных с взвешиванием выборки.
Хотя само по себе самообучение не дало положительных результатов, было бы интересно изучить, может ли быть полезной новая стратегия, сочетающая самообучение и полуноконтроль. Например, мы могли бы выбрать выборки, в которых оба классификатора согласны, чтобы добавить определенности новым псевдометкам, или где они не согласны, чтобы сосредоточиться на серых областях.
использованная литература
[1] Сяоцзинь Чжу и Зубин Гахрамани. « Изучение маркированных и немаркированных данных с распространением меток .» (2002).
[2] Чжоу, Денгён и др. « Обучение с локальной и глобальной согласованностью .» Достижения в области нейронных систем обработки информации. 2004 г.
[3] Луг, Марко. « Сравнительная пессимистическая оценка правдоподобия для полууправляемой классификации .» Транзакции IEEE по анализу шаблонов и машинному интеллекту 38.3 (2015): 462–475.
[4] Сон, Кихюк и др. Fixmatch: Упрощение обучения с полу-контролируемым обучением с последовательностью и уверенностью. препринт arXiv arXiv: 2001.07685 (2020).