Текущая полезность и доступность машинного обучения частично объясняются экспоненциальным увеличением доступности данных с течением времени. Хотя данных много, может быть сложно получить ярлыки, необходимые для конкретных задач контролируемого машинного обучения. На ODSC West в 2018 году д-р Дженнифер Прендки рассказала об активном обучении, методе, который можно использовать для минимизации времени и затрат, необходимых для создания подходящего набора данных для обучения с учителем. Доктор Прендки в настоящее время является вице-президентом по машинному обучению в компании Figure Eight и имеет богатый опыт работы в различных областях науки о данных.

[Статья по теме: Обзор подходов с использованием прокси-метки для полуавтоматического обучения]

Маркировка всех доступных данных может быть дорогостоящей, несмотря на множество услуг, которые предлагают маркировку человека. Доктор Прендки предлагает два решения; этикетируйте быстрее с помощью машинного обучения и этикетируйте умнее, чтобы максимально повысить точность каждой этикетки.

Использование моделей машинного обучения для маркировки данных для машинного обучения может показаться циклической логикой, но доктор Прендки объясняет, что партнерство человека и модели может быть использовано для разработки эффективного цикла. Существует множество моделей и сервисов для быстрой маркировки изображений, но их точность далека от идеала. Чтобы обеспечить точность, люди затем быстро просматривают этикетки и исправляют любые ошибочные записи. Затем модель можно переобучить с новыми помеченными данными. Этот процесс начинается с создания достаточного количества меток, созданных человеком, на основе которых можно обучать модель. Затем модель используется для маркировки дополнительного подмножества оставшихся данных, имитируя человека, наносящего маркировку. Процент точек данных, помеченных моделью, будет неверным, поэтому человеку потребуется изменить метку части автоматически помеченных данных. Цикл продолжается с переобучения модели на помеченных данных и исправления ошибочных меток до тех пор, пока модель не достигнет достаточной точности или все данные не будут помечены.

Д-р Прендки представляет идею более разумной маркировки за счет максимального увеличения соотношения информации к объему данных. Выборочное обучение может снизить стоимость маркировки за счет обработки меньшего количества данных и повышения точности модели, гарантируя, что модель учится на ключевых точках данных для обобщения, выходящего за рамки обучающих данных. Случайная выборка обучающих данных часто является наилучшей практикой, но в некоторых случаях выборочная выборка данных в конечном итоге дает наилучшие результаты и сокращает количество точек данных, которые необходимо пометить. Например, на рисунке ниже показана модель, обученная путем выборочной выборки и пометки синих точек данных среди других, можно построить лучшую модель, чем просто случайная выборка данных.

Концепция интеллектуальной маркировки интуитивно понятна, если кто-то знаком с тем, как бороться с несбалансированными классами в машинном обучении. Если важна точность прогнозов для классов с недостаточной выборкой, важно сосредоточить усилия по маркировке именно этих классов. Однако дисбаланс выборки - не единственный способ определить, какие точки данных предлагают наибольший объем информации во время обучения. Доктор Прендки предположил, что изменение энтропии и уверенность модели в прогнозе для каждой точки данных являются ключевыми источниками информации для определения наиболее информативных записей.

[Статья по теме: Тенденции в искусственном интеллекте: к системам обучения, требующим меньше аннотаций]

Основные выводы:

  • Активное обучение (AL) - это полу-контролируемый подход, в котором используются как помеченные, так и немаркированные данные.

  • AL может минимизировать количество времени и ресурсов, затрачиваемых на разметку набора данных для уникальной задачи.
  • AL может повысить точность прогнозирования, гарантируя, что обучающий набор данных максимизирует соотношение прироста информации к объему данных.

Оригинальный пост здесь.

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.