Это краткое введение в Snorkel, созданную в Стэнфорде систему для изучения новых процессов маркировки с помощью Weak Supervision.

Обзор

Оригинальную статью со ссылками на технические статьи можно найти здесь. Часть I этого блога будет посвящена обзору и проблемам машинного обучения, особенно в области маркировки данных обучения. Затем в Части II основное внимание будет уделено техническим реализациям Snorkel на основе опубликованных технических документов.

Аудитория

Аудитория этого сообщения в блоге - специалисты по данным и аналитики данных. Мы создадим новые визуализации ключевых концепций, рассмотренных в исходной статье, опубликованной Стэнфордским университетом в Части I. Для понимания этого сообщения в блоге не требуется опыт работы в области расширенной аналитики, но это неплохо.

Цель

Цель сообщения в блоге Части I - рассказать об истории вопроса и потенциальных проблемах, с которыми могут столкнуться практикующие специалисты по науке о данных при контролируемом машинном обучении - обучении маркировке данных. В реальном мире науки о данных наборы обучающих данных не всегда могут быть должным образом маркированы.

Суть проблемы здесь ясна: как для классического, так и для современного машинного обучения требуется вручную пометить большой объем обучающих данных, чтобы получить многообещающие результаты прогнозирования. Однако общий процесс маркировки часто занимает у экспертов в предметной области месяцы (если не годы), чтобы сделать это последовательным образом. Не говоря уже о том, что при изменении аналитических целей метки также требуют повторной маркировки.

Приложение 1 основано на приведенном ниже разделе исходной статьи, а также содержит дополнительную информацию для новых точек зрения.

В традиционном надзоре принято определять точки данных, которые лежат ближе к границе принятия решения, и уделять первоочередное внимание времени экспертов предметной области этим данным, надеясь, что обучение может быть основано на более ценной информации.

Существуют также способы установить приоритет маркировки точек данных над выбросами в настройках кибербезопасности, когда сигналы атаки составляют лишь крошечную долю по сравнению с обычным веб-трафиком. Бумагу можно найти здесь.

Однако Snorkel использует Weak Supervision, который включает не только такой метод приоритезации, но и другие подходы к созданию меток.

Согласно статье, Weak Supervision может использовать как ручные, так и автоматические методы маркировки, чтобы получить больше помеченных данных менее болезненным способом, сохраняя при этом многообещающие результаты.

Слабый надзор может принимать входные данные как от экспертов в предметной области (резюме высокого уровня, аналогичных экспертным системам), так и от неспециалистов, поскольку существуют внутренние механизмы для разрешения конфликтов и корреляций (мы рассмотрим их в Части II). Также поддерживаются различные форматы ввода, включая эвристику для конкретных задач, стандартные экспресс-шаблоны (в основном для НЛП) и общие практические правила.

Приложение 2 основано на приведенном ниже разделе исходной статьи.

Это подводит итог Части I. Мы рассмотрим технические аспекты слабого надзора в Части II. Быть в курсе!

Вопросы?

[email protected]