Это краткое введение в Snorkel, созданную в Стэнфорде систему для изучения новых процессов маркировки с помощью Weak Supervision.
Обзор
Оригинальную статью со ссылками на технические статьи можно найти здесь. Часть I этого блога будет посвящена обзору и проблемам машинного обучения, особенно в области маркировки данных обучения. Затем в Части II основное внимание будет уделено техническим реализациям Snorkel на основе опубликованных технических документов.
Аудитория
Аудитория этого сообщения в блоге - специалисты по данным и аналитики данных. Мы создадим новые визуализации ключевых концепций, рассмотренных в исходной статье, опубликованной Стэнфордским университетом в Части I. Для понимания этого сообщения в блоге не требуется опыт работы в области расширенной аналитики, но это неплохо.
Цель
Цель сообщения в блоге Части I - рассказать об истории вопроса и потенциальных проблемах, с которыми могут столкнуться практикующие специалисты по науке о данных при контролируемом машинном обучении - обучении маркировке данных. В реальном мире науки о данных наборы обучающих данных не всегда могут быть должным образом маркированы.
Суть проблемы здесь ясна: как для классического, так и для современного машинного обучения требуется вручную пометить большой объем обучающих данных, чтобы получить многообещающие результаты прогнозирования. Однако общий процесс маркировки часто занимает у экспертов в предметной области месяцы (если не годы), чтобы сделать это последовательным образом. Не говоря уже о том, что при изменении аналитических целей метки также требуют повторной маркировки.
Приложение 1 основано на приведенном ниже разделе исходной статьи, а также содержит дополнительную информацию для новых точек зрения.
В традиционном надзоре принято определять точки данных, которые лежат ближе к границе принятия решения, и уделять первоочередное внимание времени экспертов предметной области этим данным, надеясь, что обучение может быть основано на более ценной информации.
Существуют также способы установить приоритет маркировки точек данных над выбросами в настройках кибербезопасности, когда сигналы атаки составляют лишь крошечную долю по сравнению с обычным веб-трафиком. Бумагу можно найти здесь.
Однако Snorkel использует Weak Supervision, который включает не только такой метод приоритезации, но и другие подходы к созданию меток.
Согласно статье, Weak Supervision может использовать как ручные, так и автоматические методы маркировки, чтобы получить больше помеченных данных менее болезненным способом, сохраняя при этом многообещающие результаты.
Слабый надзор может принимать входные данные как от экспертов в предметной области (резюме высокого уровня, аналогичных экспертным системам), так и от неспециалистов, поскольку существуют внутренние механизмы для разрешения конфликтов и корреляций (мы рассмотрим их в Части II). Также поддерживаются различные форматы ввода, включая эвристику для конкретных задач, стандартные экспресс-шаблоны (в основном для НЛП) и общие практические правила.
Приложение 2 основано на приведенном ниже разделе исходной статьи.
Это подводит итог Части I. Мы рассмотрим технические аспекты слабого надзора в Части II. Быть в курсе!
Вопросы?