Оценка и обучение моделей с использованием человеческих суждений

Контекст:

  • Человеческие суждения используются для оценки моделей машинного обучения в нескольких областях, таких как поиск, обнаружение, понимание контента и т. д.
  • Оценщики-люди предоставляют метки истинности для примеров в наборе данных. Прогнозы модели сравниваются с человеческими суждениями для вычисления показателей точности для конкретной задачи.
  • Человеческие суждения стоят дорого (как $$$, так и потраченное время). Ярлыки, сформированные на основе человеческих суждений, также определяют качество модели и, в конечном счете, впечатления от продукта.

Вот несколько практик, которые помогают улучшить системы машинного обучения, основанные на человеческих суждениях.

  1. Создайте процесс пересмотра руководства:Рейтингруководство является ключом к качеству оценки, основанной на суждениях человека.Прежде чем завершить разработку руководства, группа инженеры или эксперты в предметной области задачи ML должны оценить подмножество примеров в соответствии с рекомендациями. Если вы видите большие расхождения в решениях, это значит, что руководство неясно и приведет к шумным ярлыкам. Рекомендации должны быть простыми, ясными и обоснованными.
  2. Золотой набор данных для оценки точности маркировки. Сохраните небольшой золотой набор данных с метками истинности. Эти примеры можно вводить время от времени, чтобы оценить точность маркировки. Золотые наборы данных никогда не должны использоваться для настройки моделей мл или чего-либо другого, кроме оценки.
  3. Мониторинг распределения меток. Наборы данных непрерывной оценки не меняются в одночасье. Обычно происходит постепенное изменение из-за дрейфа концепций. Если распределение человеческих суждений значительно изменилось за короткий промежуток времени, это указывает на ошибку в системе.
  4. Инвестиции в инструменты/API для маркировки человеком. Инвестирование в надежные инструменты и возможности настройки для маркировки человеком может повысить эффективность и качество машинного обучения. Задачи машинного обучения в разных доменах имеют разную бизнес-логику и требуют настройки логики выборки. Существуют различия в бюджете и требованиях к точности. Например, для задач, требующих высокой точности, инвестируйте в двойные/тройные проверки с большинством голосов. Многоуровневая архитектура обычно хорошо работает, когда клиенты могут писать свою бизнес-логику изолированно.
  5. Предотвратите утечку ярлыков.Наборы данных, созданные на основе ярлыков, созданных людьми, должны иметь четкую цель (обучение, оценка и т. д.), а также метаданные, связанные с хранением, и рекомендации. Наборы данных, созданные для оценки, не должны использоваться для обучения даже для другой модели. Эти типы утечек этикеток трудно обнаружить, и они очень сильно влияют на качество продукции в зависимости от модели.
  6. Исследуйте активное обучение. Активное обучение – это набор методов, позволяющих напрямую оптимизировать ценность ярлыка. Это может работать довольно хорошо в зависимости от зрелости вашей модели (ранняя стадия или зрелая) и уровня сложности примеров. Активное обучение легко настроить, если у вас есть многоуровневые API для маркировки и управления человеком.

Интересно читать:

1. Вот отличное руководство по человеческому рейтингу Google для поиска: https://static.googleusercontent.com/media/guidelines.raterhub.com/en//searchqualityevaluatorguidelines.pdf.

2. https://medium.com/better-ml/introduction-to-active-learning-23f50725ca85