Ежедневно в мире генерируется более 2,5 квинтиллионов байт данных. [1] К сожалению, большая часть этих данных не используется для роста бизнеса, несмотря на ценность, которую они предлагают для анализа больших данных, обработки естественного языка и приложений машинного обучения. Чтобы бизнес мог создать эффективную модель машинного обучения, ему необходимо собирать, хранить и маркировать данные, чтобы модель могла их осмыслить. Стратегии сбора данных и возможности облачных хранилищ находятся на пике своего развития, и компаниям приходится бороться с самыми сложными процессами из трех — маркировкой данных.

В этой статье представлено подробное руководство по маркировке данных для моделей машинного обучения, в котором основное внимание уделяется типам маркировки данных, инструментам маркировки данных и передовым методам маркировки данных для приложений машинного обучения.

Что такое маркировка данных? Определение

Маркировка данных, также известная как аннотация данных, представляет собой процесс идентификации необработанных данных и добавления значащих меток, чтобы модели машинного обучения могли понимать их контекст и извлекать из него уроки. [2]

Например, если вы планируете создать модель машинного обучения на основе изображений, вы должны включить метки на все фотографии, чтобы указать контекст фотографии, т. е. содержит ли она человека, собаку, автомобиль и т. д. Это относится ко всем фотографиям. формы данных, включая изображения, текстовые файлы и видео.

Как работает маркировка данных?

Сегодня большинство моделей машинного обучения используют обучение с учителем. Обычно это включает использование алгоритма для сопоставления ввода с желаемым результатом. Чтобы это работало, вам нужен набор помеченных данных, из которых может учиться модель машинного обучения.

В процессе аннотирования данных обычно участвует группа специалистов по выравниванию, которые выносят суждения о различных фрагментах неразмеченных данных. Например, компания может нанять группу маркировщиков для маркировки всех изображений в наборе данных, содержащем движущееся транспортное средство. Процесс маркировки может быть таким же простым, как выбор «да/нет», или более сложным, например, маркировкой всех пикселей на изображении, связанном с движущимся транспортным средством.

Вот упрощенное пошаговое руководство по конкретным процессам, связанным с маркировкой данных:

Процессы маркировки данных

Маркировка данных обычно включает:

  • Сбор данных
  • Маркировка данных
  • Гарантия качества
  • Тестирование и обучение модели

Сбор данных

Прежде чем вы даже подумаете о маркировке данных, вам сначала нужно собрать огромное количество релевантных данных, которые соответствуют требованиям вашей модели машинного обучения. Вы можете собирать данные несколькими способами, в том числе:

Ручной сбор данных

Ручной сбор данных возможен только в тех случаях, когда более автоматизированные формы сбора данных невозможны. Обычно процесс начинается с определения типа собираемых данных, разработки инструментов сбора данных, таких как CRM-системы, ввода данных и их проверки. Весь процесс занимает много времени и сил, что побуждает предприятия использовать другие методы, где это возможно.

Наборы данных с открытым исходным кодом

Использование наборов данных с открытым исходным кодом представляет собой экономичный способ сбора данных. Легкий доступ к данным из открытых источников делает этот метод особенно подходящим для малых предприятий, не имеющих больших резервов данных.

К сожалению, данные с открытым исходным кодом подвержены многочисленным уязвимостям, включая потенциальные пробелы и неточные данные, которые могут сильно повлиять на производительность модели машинного обучения. Поэтому организациям, которым нужен этот способ сбора данных, нужен надежный источник с проверенными данными.

Генерация синтетических данных

Генерация синтетических данных обычно включает использование симуляторов (компьютерных программ), которые точно имитируют данные реального мира с точки зрения распределения, шаблонов и отношений. Самым большим преимуществом создания синтетических данных является уровень масштабируемости и удобства, которые он обеспечивает.

Маркировка данных

Когда у вас есть готовые необработанные данные, вам потребуются специалисты по маркировке, чтобы идентифицировать элементы в данных с помощью платформы маркировки данных. Из соображений безопасности большинство организаций предпочитают делать это самостоятельно, поскольку они не хотят делиться конфиденциальной информацией с третьими лицами. [3]

Гарантия качества

Прежде чем применять собранные данные к вашей модели машинного обучения, вы должны проверить точность и качество данных. Ваша цель здесь в основном состоит в том, чтобы обеспечить точность, актуальность и отсутствие ошибок в данных, чтобы модели машинного обучения могли работать эффективно и давать точные прогнозы. Этот процесс обычно включает:

  • Очистка данных
  • Маркировка данных
  • Валидация данных
  • Увеличение данных
  • Балансировка данных

Тестирование и обучение модели

Как только вы убедитесь в качестве своих данных, вам нужно включить их в свою модель машинного обучения и протестировать. Лучший и наиболее эффективный способ протестировать модель — подвергнуть ее воздействию неразмеченных данных, а затем проверить точность ее прогнозов. Таким образом, вы можете получить оценку успешности модели и либо развернуть, либо переобучить ее.

Типы маркировки данных

Существует три типа маркировки данных. Они включают:

Компьютерное зрение

Это ветвь ИИ, которая позволяет компьютерам распознавать изображения и извлекать из них значимую информацию. [4] При построении модели машинного обучения для системы компьютерного зрения сначала необходимо правильно пометить изображения. Обычно это включает в себя маркировку самих изображений, ключевых точек на изображениях или создание границ вокруг определенных объектов на изображении, а затем их маркировку.

Например, вы можете классифицировать изображения по качеству и содержанию или сегментировать изображения на уровне пикселей, чтобы идентифицировать объекты в пределах заданных границ. После маркировки эти изображения можно использовать в качестве обучающих данных для построения модели, которая может автоматически классифицировать изображения, обнаруживать объекты на изображениях и определять ключевые точки на изображении или сегментировать изображения.

Обработка естественного языка

Обработка естественного языка — это приложение ИИ, которое дает компьютерам возможность видеть и понимать текст и речь, созданные человеком. [5] В Решениях NLP вам сначала нужно вручную определить соответствующие разделы текстового или аудиофайла, а затем добавить определенные метки, чтобы создать набор данных для обучения.

Это может включать в себя что угодно, от определения тональности звуковой или текстовой рекламы, классификации имен собственных и определения частей речи до распознавания текста на изображениях. Чтобы достичь этого, вы должны вручную нарисовать границы данного текстового или аудиофайла с отметкой времени, а затем транскрибировать его содержимое в свой набор данных.

Обработка звука

Обработка звука обычно включает преобразование различных типов звука в структурированный формат, который можно использовать в приложениях машинного обучения. Процесс обычно включает преобразование звуков в письменный текст с последующим добавлением соответствующих тегов для классификации аудио. Модели Audio ML используют помеченные наборы данных в качестве обучающих данных.

Инструменты маркировки данных

Инструменты маркировки данных — это программное обеспечение, предназначенное для маркировки необработанных данных в различных форматах, таких как текст, изображения и аудио, для обучения моделей машинного обучения. Эти инструменты часто поставляются с удобным интерфейсом, где специалисты по маркировке могут просматривать необработанные данные и добавлять метки.

Согласно отчету McKinsey, маркировка данных — один из самых сложных аспектов обучения модели машинного обучения. [6] Инструменты маркировки данных могут помочь упростить этот процесс и генерировать высококачественные данные, необходимые для эффективного обучения моделей машинного обучения.

Большинство крупных организаций, располагающих необходимыми ресурсами, создают собственные средства маркировки данных. Однако из-за затрат времени и затрат на этот подход большинство малых предприятий выбирают готовые программные решения.

Некоторые программные решения доступны в виде бесплатных пакетов, но самые продвинутые — в виде платных пакетов. Основное различие между двумя вариантами заключается в их эффективности и применимости. Большинство бесплатных программных решений предлагают только базовые инструменты маркировки, которых может быть недостаточно для маркировки сложных наборов данных. С другой стороны, программные решения премиум-класса предлагают дополнительные параметры настройки и API.

Некоторые из лучших инструментов маркировки данных на рынке включают в себя:

Студия лейбла

Label studio — это веб-приложение, которое предлагает службы маркировки и исследования данных для различных типов данных, включая текст, изображения и аудиофайлы. Он имеет бэкэнд на основе Python и интерфейс React и MST. Эта уникальная функция поддерживается всеми браузерами и может быть включена в различные приложения.

Источник: labelstud.io

Оптимизированный пользовательский интерфейс, наряду с возможностями поддержки нескольких данных, делает его подходящим для всех приложений машинного обучения, а конечные результаты (размеченные наборы данных) также довольно точны.

Лень

Sloth — это программа маркировки данных с открытым исходным кодом, созданная специально для обработки приложений для аннотирования данных компьютерного зрения. Вы можете использовать этот инструмент в качестве платформы или набора стандартных компонентов, которые можно легко комбинировать для удовлетворения ваших требований к маркировке данных.

Ленивец относительно прост в использовании. Он дает вам контроль над всеми функциями и возможностями, включая пользовательские функции и предустановленные настройки, что значительно упрощает процесс маркировки данных.

Тагтог

Tagtog — это инструмент аннотирования текстовых данных, специально разработанный для работы с текстовыми форматами. Он имеет довольно удобный пользовательский интерфейс, который позволяет вам маркировать данные и управлять процессом маркировки с помощью встроенных функций, которые еще больше повышают скорость обработки.

Источник: tagtog.com

Аудионо

Audino — это программа для создания аудиоаннотаций с открытым исходным кодом. Программа поставляется с API на основе ключей, который позволяет загружать и назначать данные нескольким пользователям. Эта функция делает его идеальным для обработки огромных задач аннотирования данных, для которых требуется несколько специалистов по маркировке.

Эта программа аудио-аннотации также предлагает большую гибкость. Он позволяет выполнять различные задачи, такие как идентификация говорящего, распознавание речи, характеристика и обнаружение голосовой активности. К сожалению, его многочисленные функции и сложный пользовательский интерфейс могут затруднить эффективное использование новичками.

Лучшие практики для маркировки данных

Собирайте разнообразные данные

Одной из самых больших проблем, с которыми сталкиваются модели машинного обучения и другие приложения ИИ, является предвзятость. Чтобы ограничить возможность систематической ошибки в вашей модели машинного обучения, вам необходимо максимально разнообразить данные для обучения.

Например, если вы собираете данные для прогностической модели для правоохранительных органов, вы можете ограничить возможность предвзятости в отношении определенного меньшинства, собирая данные об арестах из разных мест, а не только из мест проживания меньшинств.

То же самое относится и к учебным моделям для автономных транспортных средств. Для того, чтобы быть эффективными, их обучающие данные должны поступать с многочисленных типов дорог, чтобы они могли ориентироваться в различных условиях местности и дорожного движения.

Собирайте только данные, относящиеся к вашему проекту

Модели машинного обучения хороши настолько, насколько хороши их обучающие данные. Чтобы быть эффективными, им нужны конкретные данные, которые имеют отношение к их предполагаемой цели. Скармливание модели машинного обучения разрозненными данными неизбежно вызовет «путаницу» в системе, что повлияет на ее точность и эффективность.

Измерьте производительность вашей модели

Производительность моделей машинного обучения зависит от размера многоуровневых обучающих данных. Модели машинного обучения с большими наборами обучающих данных обычно работают лучше, чем их меньшие аналоги. Большинство организаций используют несколько ограниченную выборку обучающих данных, а затем со временем добавляют больше, чтобы улучшить производительность модели.

Каждое добавление впоследствии улучшает производительность модели, пока не достигнет точки, когда последующие улучшения станут слишком мелкими. На этом этапе вы можете сдаться и выбрать развертывание модели как есть. Но для большей эффективности рекомендуется попытаться выяснить, что вызывает узкие места в производительности, с помощью тонкой настройки «человек в контуре» (HITL) [7].

Пока вы этим занимаетесь, вы можете обнаружить, что вам нужно изменить свою модель или подход. Это может включать в себя что угодно, от улучшения качества ваших наборов данных до их полного изменения.

Используйте внешние службы маркировки данных

Аннотирование данных — трудоемкий и длительный процесс, который может занимать большую часть времени вашей внутренней ИТ-команды. Это также довольно дорого. Есть множество компаний, которые специализируются на задачах маркировки данных. Эти компании могут выполнить ваши задачи по аннотированию данных быстрее и эффективнее, а также дешевле, чем относительно неопытная внутренняя команда.

При этом существует также проблема безопасности данных для конфиденциальных проектов. Если вы имеете дело с конфиденциальным проектом, было бы лучше справиться с ним самостоятельно или найти авторитетную компанию с проверенным опытом обеспечения конфиденциальности своих клиентов.

Последние мысли

Маркировка данных — один из самых сложных аспектов обучения модели машинного обучения. Все, от качества ваших данных до того, как вы их аннотируете, напрямую влияет на последующую производительность и точность вашей модели.

Поэтому крайне важно использовать только высококачественные данные в сочетании с правильными инструментами аннотирования данных. К счастью, на рынке доступно множество инструментов для аннотирования данных с открытым исходным кодом и премиум-класса, предназначенных для выполнения всех видов операций аннотирования данных. См. наш Консалтинг MLOps, чтобы узнать больше.

Рекомендации

[1] Forbes.com. Сколько данных мы создаем каждый день. URL: https://bit.ly/3Iaf0aM. По состоянию на 6 февраля 2023 г.
[2] IBM.com. Маркировка данных. URL: https://www.ibm.com/topics/data-labeling. По состоянию на 6 февраля 2023 г.
[3] Scsonline. Джорджтаун.edu. Основные угрозы для информационных технологий. URL-адрес: https://bit.ly/3lm5EQz. По состоянию на 6 февраля 2023 г.
[4] Wgu.edu. Руководство по приложениям компьютерного зрения. URL-адрес: https://www.wgu.edu/blog/computer-vision-applications-guide2111.html. По состоянию на 6 февраля 2023 г.
[5] Se-education. орг. Естественный язык. URL-адрес: https://bit.ly/3HPPExJ. По состоянию на 6 февраля 2023 г.
[6] Mckinsey.com. Что ИИ может и пока не может сделать для бизнеса. URL-адрес: https://mck.co/3jKbfj3.
[7] Link.springer.com. URL: https://link.springer.com/article/10.1007/s10462-022-10246-w. По состоянию на 6 февраля 2023 г.