О поиске подходящего инструмента, найме или аутсорсинге аннотаторов и аннотировании с помощью машинного обучения.

Как вы, возможно, знаете, группы специалистов по обработке и анализу данных тратят около 80 % своего времени на создание данных для обучения и управление ими. Обычные проблемы часто связаны с плохим внутренним инструментарием, повторной работой с маркировкой, поиском необходимых данных и трудностями, связанными с совместной работой и повторением данных распределенных команд.

Частые изменения рабочего процесса, большие объемы данных и отсутствие надлежащего рабочего процесса обучения данным могут препятствовать развитию компании. Эти проблемы усугубляются, когда компания растет слишком быстро, как это часто бывает со стартапами, независимо от отрасли.

Прекрасным примером такой потребности в масштабируемой стратегии обучения данных является высококонкурентная отрасль автономных транспортных средств. Компьютерное зрение, применяемое к беспилотным автомобилям, представляет собой сложный и конкурентный рынок. Из-за сложности определение и объем высококачественных обучающих данных часто меняются. Если ваша команда не может адаптироваться (включая вашу способность аннотировать данные), неудовлетворенность клиентов может стоить вам всего бизнеса.

Определение правильной стратегии аннотирования данных

Несколько причин могут объяснить, почему ваша стратегия данных для обучения должна быстро адаптироваться. Это может быть связано с тем, что новые функции продукта генерируют значительный объем необработанных данных, которые необходимо пометить, или вы решили разработать решение, для хорошей работы которого требуется значительный объем данных в реальном времени.

Более того, производительность модели машинного обучения часто может разочаровать, особенно в экспериментальных или ранних версиях. Поиск оптимальной стратегии аннотирования данных может произойти на поздних этапах процесса разработки, когда уже потрачено много денег и времени.

Кроме того, некоторые проекты ИИ, основанные на большом объеме данных, часто требуют обратной связи. Часто бывает так, что нейронные сети используются для улучшения каждого нового случая и непрерывного решения крайних случаев. ML требует повторяющихся процессов аннотирования данных. Циклы обратной связи с аннотациями данных и гибкие методологии имеют решающее значение для успеха.

Независимо от вашей ситуации, вы можете либо нанять внутреннюю команду аннотаторов, что может быть дорого, либо работать с внештатными аннотаторами, либо положиться на платформу аннотирования данных. Давайте рассмотрим плюсы и минусы каждого подхода.

Внутренние команды

Некоторые компании предпочитают создавать собственные группы аннотирования данных. Хорошая причина для создания внутренней аннотации данных может быть связана с безопасностью. Возможно, характер ваших проектов требует размеченных данных, которые нельзя передавать в сети.

Создание внутренней аннотации данных, безусловно, дает преимущества контроля процесса и контроля качества, но также сопряжено со значительными дополнительными затратами и рисками:

  • кадровые ресурсы,
  • Управление новой командой,
  • Разработка программного обеспечения для поддержки аннотирования данных и рабочих процессов,
  • Риск постоянной текучести кадров

Этот метод не масштабируется. Как и у всех компаний, связанных с ИИ, ваши потребности в данных могут сильно меняться в зависимости от ваших текущих и будущих проектов, поскольку вы инвестируете в найм, управление и обучение сотрудников. Конкретно, если вы решите создать собственную команду аннотирования данных, вам также потребуются инструменты аннотирования. К сожалению, команды, которые пытаются создавать собственные технические решения, часто теряют время на стратегическую разработку вместо того, чтобы отдать процесс аннотирования данных на аутсорсинг.

Хотя этот метод может показаться более экономичным в начале вашего проекта, он часто не является масштабируемым решением из-за проблем с операционной инфраструктурой, отсутствия ноу-хау в области обучающих данных и пробелов в навыках внутренних аннотаторов.

Если вы не работаете в крупной технологической компании, скорее всего, ваш внутренний инструмент никогда не будет таким же продвинутым, как комплексный инструмент маркировки данных, созданный многими специализированными разработчиками и отработанный в течение нескольких лет. Сторонние инструменты аннотирования данных, как правило, более сложные и поставляются с опытными аннотаторами и квалифицированными менеджерами проектов.

Аутсорсинг

В этом контексте аутсорсинг означает оплату фрилансерам за выполнение конкретных задач. Вознаграждение часто низкое и зависит от объема работы. Ярким примером такого решения является Amazon Mechanical Turk.

Этот подход считается простым способом сотрудничества с рабочей силой по требованию. Однако это заставляет вас точно определить назначение, определить требования к работникам и условия оплаты. Часто работники слабо проверяются или могут иметь смутное представление о том, как правильно аннотировать данные или реагировать на крайние случаи. Поэтому стоит ли тратить время на их обучение.

Некоторые компании создали платформу данных «толпа как услуга» и лицензируют платформы данных. Эти платформы управляют рабочим процессом и поиском работников. Использование таких платформ данных позволит вам быстро масштабироваться по конкурентоспособным ценам. Однако, поскольку этот подход часто используется для небольших и временных проектов, отсутствует цикл обратной связи и возможность со временем обучать специалистов по маркировке.

Еще один элемент, о котором стоит упомянуть, заключается в том, что аутсорсинговые маркировщики, как правило, страдают от недостатка опыта, что приводит к низкому качеству обучающих данных.

Безопасность данных также является проблемой, поскольку сторонние этикетировщики часто работают независимо на незащищенных компьютерах. В зависимости от важности, сложности и масштаба вашего проекта аутсорсинговые платформы могут быть простым и дешевым решением для маркировки ваших данных. Но низкая цена достигается за счет снижения качества набора данных, согласованности и конфиденциальности.

Несколько СМИ расследовали плохие условия работы лейблеров, присутствующих на этих платформах. Некоторые из этих платформ известны тем, что нанимают низкооплачиваемых удаленных работников, не заботясь об условиях труда, которые могут повлиять на показатели качества данных.

Платформа данных + рабочая сила

Еще одно доступное на рынке решение связано с компаниями, которые создали и продали собственную платформу данных. Эти платформы самообслуживания позволяют компаниям эффективно самостоятельно управлять своими проектами аннотаций благодаря расширенным возможностям, мощному пользовательскому интерфейсу, расширенным инструментам аннотаций и, в некоторых случаях, функциям аннотаций с помощью машинного обучения.

Команды машинного обучения могут более легко управлять рабочими процессами маркировки, используя эти платформы для получения качественных обучающих данных, сокращая время маркировки по сравнению с аутсорсинговыми платформами. Они также могут положиться на некоторых менеджеров проектов по требованию, которые помогут структурировать их проекты. Непродвинутые прозрачные процессы контроля качества также являются частью предложений этих платформ.

Эти платформы на основе SaaS известны своей способностью быстро масштабироваться и обеспечивать конкурентоспособные цены. Однако большинство из них сильно зависят от партнеров в обеспечении необходимой рабочей силы, не нанятой по контракту.

Эта зависимость часто приводит к нехватке опыта у их маркировщиков, проблемам с временем безотказной работы и, в конечном итоге, к низкому качеству размеченных наборов данных (часто в случае сложных проектов).

Еще один элемент, о котором стоит упомянуть, заключается в том, что эти платформы часто в основном специализируются на конкретной отрасли (например, маркировка данных для отрасли автономных транспортных средств) или области ИИ (например, компьютерное зрение или НЛП).

Платформа + полностью управляемая рабочая сила

Компании, которые построили и продают свои собственные платформы данных и имеют полностью управляемую рабочую силу, предлагают на рынке комплексное решение для аннотирования данных.

Существенная разница с другими решениями заключается в том, что такие платформы полагаются на опытных маркировщиков и экспертов в предметной области, которые выявляют крайние случаи и рекомендуют передовые методы аннотирования.

Цель состоит в том, чтобы быстро адаптироваться к новым рекомендациям или требованиям к обучающим данным с внедрением в тот же или на следующий день.

Эти платформы в значительной степени полагаются на сочетание человеческого опыта и автоматизированных инструментов аннотирования данных. Цель состоит в том, чтобы использовать человеческий опыт для упреждающего выявления крайних случаев, рекомендации рекомендаций и более быстрого запуска модели в производство. Более того, этикетировщики используют передовые инструменты, чтобы тратить меньше времени на аннотирование. Эти платформы могут охватывать весь цикл обучающих данных.

С точки зрения ценообразования полностью управляемые услуги связаны с более высокими затратами, чем другие решения для аннотирования данных.

Аннотации с помощью машинного обучения

Помимо часто высокой стоимости ручной маркировки, объем данных имеет тенденцию к росту по мере роста компании. Ручная маркировка имеет свои ограничения при работе с большими объемами данных. Аннотации с помощью машинного обучения уменьшают зависимость от ручной маркировки и дают реальное решение этой проблемы.

Основная идея аннотаций с помощью ML состоит в том, чтобы использовать искусственный интеллект для почти идеальных аннотаций (путем охвата всех важных типов аннотаций). В идеале цель состоит в том, чтобы позволить людям-аннотаторам тратить меньше времени на аннотирование и больше внимания уделять исправлению сложных случаев для дальнейшей разработки моделей машинного обучения.

Определение и уровень автоматизации инструмента для создания аннотаций с помощью машинного обучения могут значительно различаться отполу-, а иногда и до полностью автоматизированных инструментов.

Один из подходов состоит в том, чтобы пометить всего несколько изображений для обучения модели нейронной сети с нуля или использовать предварительно обученную модель. После этого эта модель может предсказывать классы в наборе неразмеченных изображений. Позже комментаторы-люди просматривают и при необходимости исправляют их. При этом задача комментирования становится задачей оценки. Более того, дополнительная ценность ручной аннотации заключается в том, чтобы сосредоточиться на самых сложных пограничных случаях. Окупаемость инструментов аннотирования с помощью машинного обучения была доказана при работе с большими наборами данных.

Процесс намного быстрее, потому что аннотатор может легко увидеть предложенную метку, и ему нужно только просмотреть ее. Другие решения показывают только помеченные изображения с самой низкой или самой высокой достоверностью подтверждения маркировки.

Гибкость аннотирования данных означает, что вы тратите минуты, а не дни на поиск ошибок в наборе данных.

Инструменты аннотирования с помощью машинного обучения могут интегрировать цикл обратной связи. После просмотра изображений пользователь может добавить их в обучающий набор для обучения новой/более точной нейронной сети. Другие алгоритмы, такие как обучение с подкреплением, могут воспроизводить процессы принятия решений комментаторами. Агент подкрепления учится аннотировать данные тревоги на основе аннотаций, сделанных человеком-экспертом.

Некоторые инструменты аннотирования данных предлагают инструмент маркировки полигонов, не зависящий от класса, в аннотации изображения. Аннотатор отмечает выбранный объект, а сеть обеспечивает предсказание многоугольника. Также можно использовать предварительно обученную модель сегментации на немаркированных изображениях, автоматически создавая грубую маску. Затем пользователь корректирует контур маски. Другие функции включают в себя простое переключение между инструментами и методами маркировки, более быстрое получение вывода с меньшим количеством щелчков по объекту.

Обеспечение качества и сроков

Помимо принятия решения о создании собственной команды аннотирования данных, привлечении аутсорсинга или использовании передовой платформы данных на основе машинного обучения, которая предоставляет выбранную рабочую силу, становится крайне важным внедрить инструмент, который может помочь оптимизировать рабочие процессы, когда ваша компания быстро растет. В идеале было бы лучше, если бы у вас был инструмент для беспрепятственного изменения приоритетов задач, обеспечения обратной связи и мониторинга моделей в производстве.

Стратегия обучения масштабируемым данным также нуждается в отчетности. Глубокое понимание представленных классов и крайних случаев в наборе обучающих данных — это ценная информация, которая определяет приоритеты и определяет, какие данные следует аннотировать для быстрой разработки модели.

Это подводит нас к важности наличия расширенной настраиваемой панели инструментов с аналитикой в ​​реальном времени и отчетами об ошибках, чтобы иметь подробный обзор ваших проектов и измерять качество и производительность аннотаторов. Эта информационная панель также должна позволять вам динамически увеличивать или уменьшать рабочую нагрузку в зависимости от данных обучения, устанавливать правила маркировки и легко интегрировать необработанные данные, возможно, через Rest API.

Как показано в этой статье, существует несколько решений, которые помогут вашей компании быстро и легко создать масштабируемую стратегию аннотирования данных. Сквозные платформы аннотирования данных представляют собой наиболее экономичное и комплексное решение для компаний, нуждающихся в масштабируемости. Однако для некоторых конкретных проектов также может иметь смысл создание собственной группы аннотирования данных.

Если вам понравилась эта статья и мои тексты в целом, поддержите меня, подписавшись на Medium по моей реферальной ссылке здесь. Спасибо!