Активное изучение?

Вы еще не слышали об активном обучении?

Не беспокойся. Это простая идея.

Активное обучение — шаг, вставленный между «немаркированным пулом» и «моделью машинного обучения». Он применяет подход, определяющий, какие данные следует выбирать из немаркированного пула и использовать для обучения модели, чтобы новая точка данных была наиболее «ценной» и имела наибольшую вероятность повышения производительности модели.

Самая уникальная и очаровательная часть активного обучения — это выбор стратегий запросов. Стратегия запроса — это подход к выбору наиболее информативных примеров, которые будут рассматриваться как следующая точка входящих данных и передаваться аннотатору для маркировки. Очевидно, что этот выбор, направленный на выбор наиболее подходящих примеров, будет определять направление и производительность модели.

Имея большой набор неразмеченных данных, вам нужно будет указать системе, как она должна количественно определять полезность и маргинальную информацию новой точки данных. Множество различных количественных оценок представлено учеными в литературе, и мы вместе пройдемся по наиболее известным из них.

Выборка неопределенности

Модель машинного обучения сначала делает прогнозы по немаркированным точкам данных. Обычно такие предсказания приходят с уверенностью. А выборка по неопределенности указывает системе выбирать примеры на основе уверенности в прогнозе. Как использовать прогнозируемую уверенность? Есть четыре основных способа:

Простая неопределенность

Доверительный интервал

Запас уверенности в классификации определяется как разница в вероятности первого и второго наиболее вероятного предсказания.

Чтобы запросить следующие примеры, система ищет выборку с наименьшей доверительной вероятностью, поскольку чем меньше доверительная вероятность, тем более ненадежным является решение. Чем менее уверенным будет решение, тем больше информации модель сможет извлечь из новой выборки.

Энтропия

Энтропия — это средний уровень «информации» или «неопределенности» возможного результата случайной величины. В энтропии классификации он принимает расчет энтропии, где p_k - вероятность того, что образец принадлежит k-му классу:

Опять же, чем больше энтропия, тем больше неопределенности вносит новая выборка. Следовательно, система выберет выборку с самой высокой энтропией.

Query-By-Committee

Эта группа методов включает в себя поддержку комитета моделей, которые все обучены на текущем наборе размеченных данных, но члены комитета представляют конкурирующие гипотезы. Каждый член комитета (модель) голосует за маркировку кандидатов запроса (примеры без маркировки). Когда комитет не согласен с примером, этот пример считается информативным.

Энтропия голосования

Энтропия голосования - один из двух основных предложенных подходов.

В этом уравнении y_i означает все возможные метки, V(y_i) — количество «голосов», которые метка получила от предсказаний членов комитета, C — размер комитета.

Возможно, вы заметили, что это уравнение является модификацией исходного уравнения энтропии. Эту формулу энтропии голосования можно рассматривать как обобщение выборки неопределенности на основе энтропии для каждого комитета.

Дивергенция Кульбака-Лейблера (KL)

Дивергенция KL имеет множество приложений. Это теоретико-информационная мера различия между двумя распределениями вероятностей. Таким образом, эта мера несогласия считает наиболее информативным запрос с наибольшей средней разницей между распределением меток любого члена комитета и консенсусом. Это также называется консенсусной энтропией.

В этом наборе уравнений P_C(y_i|x) считается согласованной вероятностью того, что y_i является правильной меткой. Затем функция D вычисляет энтропию вероятности консенсуса. А уравнение x_KL выполняет вычисление среднего.

Экземпляр с наибольшей консенсусной энтропией выбирается системой.

Методы принятия решений

Ожидаемое изменение модели

В другой общей структуре активного обучения используется подход, основанный на теории принятия решений, при котором выбирается экземпляр, который внес бы наибольшие изменения в текущую модель, если бы мы знали ее метку.

Ожидаемая длина градиента (EGL) — это пример стратегии запроса в этом поле для дифференциальных вероятностных классов. Из названия мы знаем, что используется подход на основе градиента.

Поскольку различительные вероятностные модели обычно обучаются с использованием оптимизации на основе градиента, «изменение», сообщаемое модели, может быть измерено длиной обучающего градиента. Другими словами, учащийся должен запросить экземпляр, если добавление конкретной метки к экземпляру приведет к новому обучающему градиенту наибольшей величины. Однако мы не знаем истинную метку заранее, нам нужно рассчитать ожидаемое изменение модели по возможным меткам.

Интуиция, стоящая за этой структурой, заключается в том, что она предпочитает экземпляры, которые, вероятно, больше всего повлияют на модель, независимо от результирующей метки запроса.

Ожидаемое снижение количества ошибок

Другой подход, основанный на теории принятия решений, направлен на измерение не того, насколько модель может измениться, а того, насколько может уменьшиться ее ошибка обобщения.

Однако этот метод не получил широкого распространения из-за высокой вычислительной стоимости. Это требует не только оценки ожидаемой будущей ошибки для каждого запроса, но и новой модели, которая должна быть постепенно переобучена для каждой возможной маркировки запроса, которая, в свою очередь, выполняет итерацию по всему пулу.

Методы взвешивания по плотности

Плотность информации

Метод плотности информации - это общий метод взвешивания плотности. Основная идея заключается в том, что информативными должны быть не только неопределенные экземпляры, но и те, которые «репрезентативны» для основного распределения. Этот подход преобладает над неопределенностью, особенно когда вы предпочитаете рассматривать не только один экземпляр, но и всю структуру данных.

Для немаркированного набора данных информационная плотность экземпляра может быть рассчитана как:

Функция sim() означает сходство, которое может быть косинусным, евклидовым и т. д. Чем выше плотность информации, тем больше данный экземпляр похож на остальные данные, поэтому распределение данных более репрезентативно. .

Рекомендации

  • Оседает, Берр. «Обзор литературы для активного обучения». (2009).