Освоение операций по маркировке

В своей простейшей форме маркировка данных — это процесс преобразования неструктурированных данных в структурированные данные, то есть помеченные данные, используемые для обучения модели машинного обучения. Для команд машинного обучения, которые только начинают свой путь, может быть неясно, на каких показателях следует сосредоточиться и улучшить при построении конвейера маркировки данных. Хотя операции по этикетированию могут показаться довольно новым процессом, я обнаружил, что между этими процессами и процессами, используемыми в производстве, есть много общего — настолько, что три основных термина, определяющих операцию по этикетированию, могут быть применены к обеим дисциплинам: пропускная способность, эффективность и качество (TEQ).

До основания Labelbox я много лет занимался аэродинамикой, поддерживая проектирование, производство и испытания сложных самолетов, таких как Boeing 787 Dreamliner. С этой точки зрения я пришел к пониманию важности TEQ в производстве. В последние годы я работал с сотнями ведущих команд искусственного интеллекта и обнаружил поразительное сходство между операциями по маркировке и производством. Как и в случае с производством, я заметил, что освоение TEQ операций по маркировке приводит к значительному снижению затрат на маркировку, повышению качества данных и более быстрому развитию машинного обучения.

Давайте сначала разберем TEQ, а затем соберем их вместе и посмотрим, как ими овладеть.

пропускная способность

Пропускная способность — это количество помеченных данных, созданных операцией пометки. Другими словами, это объем размеченных данных, созданных за определенный период времени.

Оценка сроков проекта этикетирования требует точного измерения и прогнозирования пропускной способности. И это часто сложнее, чем измерение исходной производительности этикетирования, поскольку большинство процессов маркировки требуют определенного контроля качества, например. рассмотрение. Чтобы получить точное представление о пропускной способности, нам необходимо понимать как пропускную способность маркировки, так и пропускную способность обзора. А чтобы спрогнозировать пропускную способность, нам также необходимо предсказать, изменится ли пропускная способность маркировки со временем и в какой степени.

Как правило, пропускная способность маркировки увеличивается на 30 % или более в течение первых шести недель. Это происходит исключительно за счет повышения производительности по мере того, как этикетировщики наращивают производительность и лучше справляются с задачей маркировки.

Основные показатели пропускной способности

Пропускная способность ярлыков и пропускная способность отзывов (+ оценка отзыва)
Маркировка времени, просмотр времени и общее время
Производительность на этикетировочную машину

Маркировка и проверка пропускной способности

Мы начинаем нашу оценку операции маркировки с рассмотрения общей пропускной способности маркировки, а также пропускной способности проверки и их результатов оценки проверки.

Что касается маркировки, мы оцениваем, соответствует ли пропускная способность маркировки нашим ожиданиям и соответствует ли средняя пропускная способность нашим графикам. Мы ищем здесь аномалии — будь то заметный всплеск или падение — а также любые тенденции, положительные или отрицательные, в данных. Это даст нам представление о том, насколько мы уверены в оценке средней пропускной способности, а также укажет на потенциальные проблемы в операции маркировки в целом.

В приведенном ниже примере нет ничего аномального в нашей пропускной способности маркировки, учитывая, что 13 июня — нерабочий день, а 15 июня — текущий день.

А теперь, обращая внимание на пропускную способность проверки, мы хотим убедиться, что:

Отзывы не являются узким местом, и
Отслеживаем частоту одобренных и отклоненных (отклоненных) отзывов

В приведенном ниже примере пропускная способность проверки соответствует пропускной способности этикетки, поэтому мы можем с уверенностью предположить, что узких мест нет. Все оценки, полученные в ходе обзоров, также утверждены, поэтому в настоящее время у нас нет причин беспокоиться об операции маркировки на основе этой аналитики пропускной способности.

Время маркировки, проверки и доработки

Общее время, затрачиваемое на маркировку, просмотр и переработку этикеток, должно примерно соответствовать аналогичному шаблону с маркировкой и просмотром данных о пропускной способности при постоянной эффективности маркировки. Время – деньги, так как большая часть маркировки осуществляется на основе почасовой оплаты. Используя данные общего времени, мы можем быстро рассчитать недельные затраты на эту операцию маркировки, которые можно использовать для составления бюджета и прогнозирования. Кроме того, время, потраченное за последнюю неделю, должно соответствовать нашим ожиданиям, исходя из размера команды и времени, отведенного на эту работу.

Эффективность

Эффективность – это отношение производительности ко времени (или стоимости) работы. Во многих отношениях эффективность является наиболее поучительной формой измерения для понимания и улучшения операции маркировки как в целом, так и на индивидуальном уровне. Ключом к эффективности является установление эталона эффективности: сколько времени должно занять это задание по маркировке?

Заманчиво просто использовать среднее значение по группе маркировщиков, чтобы установить контрольную точку эффективности, но мы получим лучшие результаты, сначала выяснив выбросы эффективности среди группы маркировки данных.

Сначала определите наиболее эффективных этикетировщиков — тех, которые имеют наименьшее среднее время на этикетку.
Если они маркируют быстрее и производят некачественную работу, то их следует переобучить, потому что время, необходимое для исправления их работы (известное как доработка), занимает значительно больше времени, чем время, сэкономленное за счет их первоначальной скорости маркировки.
Однако, если самые эффективные этикетировщики нашли способ маркировать быстрее, соблюдая стандарты качества, мы должны систематизировать их метод и распространить его на остальную часть команды маркировщиков.
Аналогичным образом выявляйте и переобучайте самых медленных маркировщиков.

Чтобы гарантировать, что наша операция по этикетированию достигает и поддерживает максимальную производительность и максимальную экономическую эффективность, нам необходимо регулярно анализировать данные об эффективности и принимать соответствующие меры. Хотя традиционная метрика времени на задачу рассчитывает только время, необходимое для создания полной и точной этикетки, в идеале она также должна включать время доработки и время, затраченное на строку данных.

Основные показатели эффективности

При оценке эффективности маркировки мы ищем аномалии и тенденции. Среднее время на одну метку (также известное как время на задачу или TPT) измеряет, сколько времени требуется человеку для завершения начальной метки. Это прямое измерение эффективности маркировки. В приведенном ниже примере мы видим некоторую разницу в среднем времени на этикетку, а также небольшую тенденцию к снижению. Это типично для операции маркировки, так как эффективность маркировки часто повышается на 30% и более в течение первых шести недель.

Метрика среднего времени проверки и доработки измеряет, сколько времени требуется человеку для проверки и/или переделки (редактирования) этикетки. Ниже мы также наблюдаем тенденцию к снижению, которая, вероятно, указывает на то, что качество первоначальной работы по маркировке улучшается, и впоследствии требуется меньше времени на проверку и доработку каждой этикетки.

В целом данные свидетельствуют о том, что как эффективность (и, вероятно, качество) маркировки улучшается. Мы также можем рассчитать процент переделок, который составляет около 8%, а это означает, что на просмотр и переработку (редактирование) этикеток уходит менее одной минуты на каждые десять минут, затраченных на создание этикеток. Скорость доработки рассчитывается путем деления времени проверки и доработки на время маркировки; в данном случае это 1,5 минуты/19 минут. Коэффициент доработки 8 % — довольно высокий показатель по сравнению с отраслевыми эталонами (источник).

Общая эффективность не говорит о всей истории, поэтому давайте теперь посмотрим на отдельные данные об эффективности.

Эффективность индивидуальной маркировки: определить и исправить

Беглый взгляд на данные об эффективности отдельных пользователей показывает, что один из лейблеров — labeler7 — в два раза эффективнее своих коллег. Кроме того, они потратили всего около трех часов на маркировку. Такая большая разница в эффективности, безусловно, требует дальнейшего анализа. Для этого давайте посмотрим на данные истории времени для labeler7.

Глядя на представление подробной аналитики для labeler7, мы видим, что онибольше не работают над этим проектом. Синяя линия представляет индивидуальные данные, а серая линия представляет среднее значение проекта, показанное ранее. Вывод здесь по своей сути ситуативный. Наиболее распространенный сценарий: labeler7 не производил ярлыки достаточно высокого качества и был переназначен. Если дело обстоит не так, и labeler7 производил качественные этикетки с удвоенной эффективностью, часто имеет смысл изучить работу labeler7 и передать их знания другим в области маркировки. команда.

Давайте продолжим копаться в индивидуальной производительности, взглянув на подробную аналитику эффективности двух других этикетировщиков.

И labeler8, и labeler9 отслеживают среднее значение проекта с точностью до 5 %. Это типичный и в целом положительный знак. Как правило, согласованность в маркировке приводит к более предсказуемым результатам маркированных данных.

Теперь, когда у нас есть полное представление о том, как работать с эффективностью индивидуальной маркировки, давайте сделаем то же самое с эффективностью индивидуальной проверки и доработки.

Индивидуальная проверка и эффективность доработки

Здесь работают три человека, занимающиеся анализом и доработкой. Глядя на общее время, мы легко можем сделать вывод, что labeler1 выполняет большую часть проверки и, в частности, большую часть доработки. Это основано на предположении, что переработка этикеток требует значительно больше времени, чем бинарная проверка (пройдено/не пройдено).

Углубление в индивидуальную аналитику для двух этикетировщиков подтверждает наше предположение. Мы видим, как labeler1 выполняет основную проверку и доработку, а cyrus.heat выполняет выборочную проверку работы. Это обычная практика среди групп по маркировке, где качество, как точность, так и согласованность работы по маркировке имеет решающее значение.

Качество

Качество данных имеет первостепенное значение для успешной инициативы в области искусственного интеллекта, поскольку любая модель машинного обучения хороша настолько, насколько хороши ее обучающие данные. Качество является самой сложной из трех метрик операции маркировки, потому что оно субъективно как для человеческого глаза, так и для модели. Насколько хороша модель машинного обучения с желаемой производительностью, и как ее измерить? Для этого нет простого ответа, эмпирического правила или формулы. Секрет определения уровня качества, соответствующего желаемой производительности модели машинного обучения, заключается в итерации. Измерение качества, начиная с первой итерации, необходимо для эффективной итерации. Качество складывается из двух составляющих: точность и аккуратность. Оба должны быть измерены, чтобы нарисовать полную картину.

Качество является самой сложной из трех метрик операции маркировки, потому что оно субъективно как для человеческого глаза, так и для модели.

Точность, часто называемая согласованностью, – это мера того, насколько одинаково любые два маркировщика будут аннотировать один и тот же объект (изображение, видео, текст и т. д.). Точность важна, потому что модель машинного обучения учится идентифицировать объекты, классифицировать видео, интерпретировать язык и т. д. на многочисленных похожих примерах.

Например, если два маркировщика аннотируют подсолнухи, и один маркировщик включает стебель в аннотацию, а другой нет, модель (при обучении на этих данных) будет иметь слабый сигнал о взаимосвязи между стеблем подсолнуха и его идентификацией стебля. подсолнух. Хотим ли мы, чтобы модель идентифицировала подсолнухи по их стеблям или нет, здесь не имеет значения, и в обоих случаях несогласованная маркировка снизит производительность модели.

Точность – это мера того, насколько точно обозначен ярлык объекта по сравнению с его идеальным ярлыком. Идеальная метка обычно называется наземной истиной или эталонной меткой. Последствия неправильной маркировки очевидны. Возьмем наш пример с подсолнухом: если аннотации подсолнуха должны включать стебель (это означает, что мы хотим, чтобы модель идентифицировала подсолнух по его стеблю), а половина аннотаций не включает стебель, тогда способность моделей идентифицировать весь подсолнух (включая стебель) будет уменьшен.

Операция маркировки может иметь различные независимые уровни как точности, так и прецизионности. Этикетировщики могут постоянно маркировать подсолнух без стебля (высокая точность) для задачи, в которой необходимо аннотировать стебель (низкая точность), и наоборот.

Основные показатели качества

Измерение точности и аккуратности для операции маркировки данных является дорогостоящим и критически важным. Для точности наиболее распространенным методом является консенсус. В системе консенсуса два или более маркировщика аннотируют один и тот же ресурс данных, а затем сравнивают их результаты.

Для измерения точности подмножество помечаемых данных аннотируется экспертом в предметной области, а затем помечается как эталон. Активы, помеченные как эталонные, затем представляются специалистам по маркировке для аннотирования без отображаемой метки эталона, и их результат сравнивается на предмет точности с меткой эталона.

Системы консенсуса и эталонных тестов позволяют автоматизировать тесты на согласованность и точность.

Чтобы эффективно использовать согласованные и эталонные тесты, мы должны иметь возможность настраивать процент данных для тестирования и количество маркировщиков, которые будут аннотировать тестовые данные. Для многих специалистов по данным поиск наилучшей комбинации тестов качества для операции маркировки часто является итеративным процессом, в котором ясность достигается путем экспериментов.

Ориентиры

Чтобы создать новый эталон в Labelbox, перейдите к существующей этикетке и выберите «Добавить как эталон».

Этикетировщики проверяются на соответствие эталонным меткам через случайные промежутки времени. Вот пример аналитики данных эталонного теста для операции маркировки.

Здесь мы видим бимодальное распределение результатов эталонных тестов. То есть мы видим группу тестов с оценкой около 50 и другую группу в диапазоне 90–100. Это может иметь или не иметь отношение в зависимости от того, что мы ожидаем увидеть. В любом случае это указывает на различные уровни точности маркировки в наборе данных.

Наиболее распространенными причинами ненормального распределения (то есть бимодального или иного) являются:

различия в точности этикетирования между отдельными этикетировочными машинами,
различные типы данных и/или задачи маркировки, которые варьируются в пределах маркируемых данных, и
непоследовательное или неадекватное обучение и квалификация маркировщика для выполнения задачи (часто совпадающие с добавлением новых и уникальных данных к существующей операции маркировки).

Системная низкая точность маркировщика часто свидетельствует о нечетких или устаревших инструкциях, а также о неадекватном обучении задачи для (разнообразия) маркируемых данных. Чтобы исправить это, изучите этикетки с низкой точностью и убедитесь, что инструкции и обучение этикетировщиков охватывают эти случаи.

Давайте углубимся в эти контрольные данные, взглянув на результаты тестов отдельных этикетировщиков.

На первый взгляд может возникнуть вопрос: а где 90–100 баллов? Что ж, контрольный показатель для каждого маркировщика – это средний контрольный показатель. И это приводит нас к проницательному заключению: у маркировщиков есть постоянные средние результаты тестов, и, следовательно, весьма вероятно, что есть постоянные различия (от 20 до 100, как мы видим на диаграмме распределения выше) в оценках тестов. То есть существует большая разница в точности маркировки для каждого этикетировщика и небольшая разница в точности маркировки между этикетировщиками.

Большая разница в точности для каждого маркировщика и небольшая разница в точности между маркировщиками указывает на различия в данных и/или сложности задачи маркировки как на причину бимодального распределения результатов эталонного теста. Это может быть или не быть тем, что мы ожидаем, и если нет, мы можем продолжить изучение данных, чтобы получить ответ. Чтобы узнать больше о том, как это сделать и как использовать Benchmarks в Labelbox, посетите документацию.

Консенсус

Консенсус измеряет уровень согласия между несколькими маркировщиками (человеком или машиной).

Как использовать консенсус в Labelbox

Включите консенсус в настройках проекта Labelbox, настройте параметры консенсуса и нажмите «Подтвердить».
Labelbox будет автоматически и случайным образом распределять желаемый процент данных для маркировки по группе маркировки с перекрытием, как настроено на шаге 1.
Следите за общей согласованностью и исследуйте любые провалы в качестве, просматривая отдельные маркировщики и согласованные оценки меток в представлении «Производительность» → «Качество».

Вот пример аналитики данных консенсусного теста для операции маркировки.

Слева мы видим стабильные оценки консенсуса в течение нескольких месяцев маркировки, а справа мы видим высокие оценки консенсуса для большинства данных со значимым подмножеством выбросов в диапазоне 50–70 и в диапазоне 0–10.

Мы можем следовать тому же курсу действий, что и наш процесс работы с контрольными данными выше, чтобы сделать здесь выводы о причине выбросов и определить, какие действия нам необходимо предпринять. Чтобы узнать больше о консенсусе в Labelbox, посетите документацию.

Танец TEQ

Знание того, когда и как расставлять приоритеты, измерять и управлять каждым из трех аспектов операции маркировки — пропускной способностью, эффективностью и качеством — является нерассказанным секретом для ведущих групп машинного обучения сегодня. Чтобы понять это правильно, необходимо использовать опыт итеративной, управляемой данными операции маркировки. Универсального решения не существует, но вот несколько упрощенных примеров для рассмотрения:

Если ваша команда находится на ранней стадии разработки новой модели машинного обучения или добавления новых возможностей к существующей, вы можете ускорить разработку за счет быстрой итерации, сосредоточившись на пропускной способности.
Если ваша команда работает с ограниченным бюджетом и нуждается в увеличении пропускной способности этикетирования, лучше всего сосредоточиться на эффективности.
Если вашей команде нужны высококачественные данные для достижения и/или поддержания производительности моделирования на производственном уровне, когда плохой прогноз модели имеет последствия, сосредоточьтесь на качестве.

Независимо от того, как вы расставляете приоритеты TEQ, ваш ключевой начальный шаг должен состоять в том, чтобы убедиться, что вы измеряете и отслеживаете каждую из этих метрик, чтобы вы могли улучшать их с течением времени и понимать их компромиссы. Надлежащий мониторинг конвейера маркировки данных и качества данных значительно повысит ваши шансы на обучение эффективной модели машинного обучения, начиная с первой итерации и далее. Когда команды создают точные метки в первый раз — во время первого прохода качества — это существенно дешевле, чем обнаружение и повторная работа по устранению проблемы.

Помогая сотням команд ИИ улучшить свои конвейеры данных для обучения, я убедился, что самый простой способ получить представление и взять под контроль этот сложный рабочий процесс — это использовать платформу данных для обучения. Платформа обучающих данных позволит вашей команде измерять показатели TEQ там, где происходят все ваши процессы комментирования и проверки — на единой унифицированной платформе. Labelbox был создан, чтобы упростить процесс маркировки и дать возможность командам корпоративного машинного обучения ускорить итерацию своей модели и время выхода на рынок. Если вам интересно узнать больше, посетите labelbox.com.

Освоение операций по маркировке