Как получить высококачественные помеченные наборы данных с помощью коллективных сотрудников

Как специалисты по данным, мы тратим безбожное количество времени на обработку данных - очистку, нормализацию, маркировку. В наши дни, к счастью, многие решения перекладывают ответственность за маркировку на третьи стороны, высвобождая драгоценное время специалистов по обработке данных и уменьшая нагрузку на ручную маркировку текста, изображений или видео.

Однако, как специалист по данным, мы хотели бы знать, насколько хорошо сторонняя сторона выполняет задачу маркировки, поскольку мы обычно называем результат - «золотой набор данных». Есть несколько способов проверить, насколько хорошо набор данных был аннотирован.

Соглашение между аннотаторами (IAA) - это соглашение о метке между двумя или более аннотаторами. Например, если у нас есть наблюдение, которое было помечено 7 разными людьми независимо на 3 возможных метки, IAA является мерой того, сколько аннотаторов согласны с меткой, которая должна быть назначена. Если все 7 человек присвоят один и тот же ярлык, IAA будет на 100%. т.е. Соглашение между аннотаторами - это мера того, насколько хорошо два (или более) аннотатора могут принять одно и то же решение по аннотации для определенной категории.

Однако в реальном мире не все комментаторы имеют одинаковый уровень навыков. Некоторые люди-аннотаторы могут быть более опытными в решении этой задачи, поэтому они должны иметь больший вес. Именно тогда на помощь приходит взвешенная Fleiss Kappa. Это показатель, который вычисляет согласие аннотаторов, учитывая, что одни аннотаторы более квалифицированы, чем другие.

Если у нас есть юридический документ, и каждый текстовый абзац необходимо разделить на 3 возможных метки, например, Специальная юридическая оговорка, Стандартный юридический текст или Особенности контракта . Кроме того, мы хотим, чтобы каждый абзац текста классифицировался 5 разными людьми. Один из этикетировщиков, который является экспертом, должен твердо сказать, какой должна быть этикетка. Этот более высокий вес основан на историческом скользящем среднем значении правильности. Это означает, что эксперт последовательно прав, особенно в отношении низких наблюдений IAA, когда этикетировщики не могут прийти к согласию по этикетке. Тогда голос эксперта имел бы больший вес - 2 или более голоса лейб-лейтенанта.

Еще одно усовершенствование краудсорсинговых этикетировщиков - это подсказка этикетировщика, когда их этикетка не согласна с согласованной этикеткой. И в качестве меры экономии создайте небольшую выборку - 10% для маркировки несколькими аннотаторами (частота выборки)

С помощью автоматизированной настройки, как описано выше, можно получить высокоточную систему крауд-маркировки, в которой множество начальных наблюдений отправляется оракулам, и со временем появятся эксперты, поскольку их теги согласуются с оракулами при наблюдениях с низким уровнем согласия между аннотаторами. Точно так же, если аннотатор случайным образом назначает метки, не читая / не понимая проблемы, их классификация будет отличаться от классификации большинства на большинстве выборок. В примере, где многие аннотаторы соглашаются с тем, что класс должен быть специальной правовой оговоркой, когда «плохой» аннотатор выбирает особенности контракта в качестве ответа, настройка со временем понизит роль этикетировщика или даже запретите им наклеивать ярлыки для вас полностью.

Рабочий пример

На работе, когда моей команде нужны недорогие и качественные наборы данных, мы используем MTurk. Например, для одного проекта, чтобы получить около 20000 высококачественных маркированных точек данных для точной настройки модели НЛП на основе Transformer, мы сделали следующее:

  1. Мы (инженеры по машинному обучению и малые и средние предприятия) вручную отметили около 200 (или 1%) наблюдений.
  2. Мы создали квалификационные задания для туркеров по 20 заранее обозначенным наблюдениям. Это определило бы, каких туркеров мы хотели бы привлечь для нашей основной работы по маркировке. Вот как это выглядело -

Вы можете видеть, что рабочий № 10 даже не пробовал, с показателем f1 23%. Мы взяли на борт рабочих с f1 выше 90% для этой задачи.

3. Мы ставим задачи таким образом, чтобы каждое наблюдение было помечено 5 разными туркерами. И каждая такая задача будет содержать 100 наблюдений, 99 немаркированных и 1 наблюдение, уже помеченное нашей командой, но не видимое туркерам.

4. Всего выдано 200 таких заданий по 100 наблюдений в каждой. Задачи будут передаваться туркерам таким образом, чтобы максимизировать полноту наблюдений, т.е. мы хотели, чтобы задача 1 была полностью выполнена разными туркерами, прежде чем переходить к следующей задаче и так далее. Риск здесь заключался в том, что если бы все задачи были доступны для туркеров, у нас не было бы надежных показателей, поскольку туркер 1 начал бы задачу № 10, а туркер 2 начал бы задачу № 103 и так далее, затрудняя расчет IAA.

5. Туркеры пометили основной набор данных из 19 980 (20 000–20) в последовательности из 100 наблюдений, и мы будем отслеживать метрику IAA для каждого туркера. Если какой-либо индекс IAA Туркера упадет слишком низко, написанный нами код исключит их из тегирования для нас.

6. Мы также отслеживали, насколько хорошо туркеры справились с несколькими наблюдениями, которые наша команда предварительно пометила, чтобы гарантировать, что туркеры не сбились с пути коллективно, поскольку метрика IAA отслеживает корреляцию, а не правильность.

7. После того, как вся задача будет выполнена, мы будем повышать определенных рабочих до мастеров, которым не требуется проходить квалификационные тесты в следующий раз, когда мы будем делать теги. Здесь можно даже расширить, чтобы увеличить количество голосов этих Тюркеров при расчете IAA.

Система, которую я описал выше, была построена нами и полностью использует API-интерфейсы AWS MTurk, и нам не нужно беспокоиться о том, что тегеры станут ленивыми и начнут случайную маркировку данных, поскольку они будут автоматически удалены из пула.

Заключение

В команде специалистов по обработке данных нам часто требуются маркированные данные. Наличие автоматизированного способа приема на работу краудсорсинговых работников, предоставление этикетировщикам возможности автоматизированной оценки и мониторинга производительности очень важно для современных команд искусственного интеллекта. Некоторые из этих принципов даже используются в программировании данных, где функции маркировки можно рассматривать как отдельных рабочих, а дискриминатор пытается различить, какие функции маркировки выполняют, а какие нет.

Если вы заинтересованы в создании собственной автоматизированной системы краудсорсинга с API, напишите мне, и мы сможем купить е-кофе ☕️ 👍.