Отчеты показывают, что 80% усилий по разработке компьютерного зрения уходит непосредственно на маркировку больших объемов данных.

Но если вы поговорите с любым практиком машинного обучения, они единодушно скажут, что это худшая часть конвейера данных компьютерного зрения.

Никто не хочет этим заниматься, для руководителей машинного обучения это превращается в щекотливую ситуацию, так как это самая трудоемкая, сложная и ответственная часть, но это самая неинтересная задача для членов их команды.

Итак, какие варианты у них есть?

У большинства команд обычно есть 2 варианта:

  1. Наймите штатную команду аннотаторов и экспертов в предметной области, которые помогут команде машинного обучения генерировать высококачественные обучающие данные в больших объемах.

Or

2. Наймите стороннего BPO для аннотации, чтобы он сделал это для команды.

Почему не всегда легко иметь вариант 1 все время?

Потому что для найма большой команды потребуются время и усилия, и вы даже не уверены, как долго сможете их удерживать.

Кроме того, это связано с огромными затратами.

Так что вариант 2 это так просто! Верно?

Нет! Заключение контракта со сторонней компанией BPO может помочь вам с наймом и обучением, но это может поставить под угрозу конфиденциальные данные компании, а также вы можете потерять видимость работы по аннотации.

И обеспечение качества генерируемых обучающих данных требует огромных усилий, которые руководители машинного обучения просто не могут отдать на аутсорсинг.

Принятие правильного решения очень важно, и, как правило, руководителям машинного обучения приходится ждать несколько кварталов, чтобы оценить, было ли решение правильным или неправильным.

Нам не нужно подчеркивать, что неправильное решение может стоить этим руководителям машинного обучения работы, а в некоторых случаях вся команда уходит на полку.

Вот что делает разработку искусственного интеллекта компьютерного зрения очень рискованной.

Давайте подробно оценим сценарий

Какие факторы должны учитывать руководители машинного обучения?

  1. Для обучения моделей требуется большой объем данных, получение которых может быть сложным и дорогостоящим. Но вы не можете избежать этого.
  2. Другим является потребность в высокой вычислительной мощности, реализация которой может быть дорогостоящей и трудоемкой.
  3. Кроме того, необходимо решить множество технических проблем, таких как работа с изменчивостью условий освещения и разрешения изображения, а также обеспечение надежности моделей и их способности обобщать новые ситуации.
  4. Конфиденциальность и безопасность данных, если руководители машинного обучения решат передать маркировку BPO или выбрать платформу в этом отношении.
  5. Обеспечение того, чтобы аннотированные данные соответствовали рекомендациям, потому что плохие данные означают плохие модели.
  6. Наконец, существуют также этические и юридические соображения, такие как обеспечение того, чтобы модели не были предвзятыми и не нарушали законы о конфиденциальности.

Как выбрать с умом?

Это очень субъективно и зависит от конкретного случая. Чаще всего это не один из вариантов, а их комбинация.

Вот много процессов, которым обычно следуют успешные команды:

  1. Начните с малого. На начальном этапе команда должна оценить модели с открытым исходным кодом, чтобы создать доказательство концепции. Они должны попытаться получить данные внутри компании или с открытым набором данных, чтобы получить небольшой объем обучающих данных для обучения модели.
  2. Начинайте рассматривать инструмент и BPO с первого дня. Команда может не получить достаточно обучающих данных или готовой к использованию модели с открытым исходным кодом, поэтому им необходимо начать взаимодействие с некоторыми поставщиками инструментов с небольшими размерами заявок. и держите их занятыми. Это поможет им быстро масштабироваться, как только POC станет успешным.
  3. Поддерживайте взаимодействие с лучшими поставщиками: оценивайте несколько платформ и сравнивайте их.
  4. Не слишком полагайтесь на настройку модели. Не нанимайте штатных специалистов по обработке и анализу данных в надежде, что они настроят модель для получения более точных прогнозов. Большинство опытных руководителей машинного обучения использовали подход ИИ, ориентированный на данные, чтобы улучшить свою модель.
  5. Взгляд от профильных экспертов сейчас: SME — это те, кто поможет вам получить достоверные данные и помочь команде оценить качество обучающих данных.
  6. Подготовьте максимально объективное руководство. С помощью SME создайте руководство, которое поможет сторонним аннотаторам правильно маркировать данные. Уделите этому как можно больше времени.
  7. Всегда обеспечивайте безопасность данных. Запрашивайте соответствующие документы по информационной безопасности у поставщиков инструментов. Попробуйте выбрать платформу, которая может сама управлять платформой и человеческими ресурсами. Это помогает руководителям машинного обучения более эффективно управлять проектом. Имейте надлежащее соглашение о неразглашении с поставщиками.

Заключение

Разработка искусственного интеллекта компьютерного зрения, как правило, очень экспериментальна и полна сюрпризов. Требуются годы усилий, чтобы создать правильную модель, которая могла бы масштабироваться и приносить пользу организациям.

Следуйте описанному выше процессу, чтобы превысить шансы на успех.