Посмотрим правде в глаза, большинство специалистов по данным боятся аннотаций. Это процесс ручной маркировки элементов в примерах обучения машинному обучению с учителем, чтобы установить истину для обучения модели машинного обучения. Проблемы определения спецификаций аннотаций данных связаны с характером, а не со сложностью задачи. Это почему?

  • Примите итеративный характер спецификаций аннотаций. Хотя у вас есть преимущество, когда вы можете предвидеть все требования в начале проекта, позвольте себе не стремиться к совершенству. Простое получение приблизительного результата — это хорошее начало, управление ожиданиями команды и руководства в отношении итеративного характера задачи — мы двигаемся быстро, быстрее ломаем модели и возвращаемся к итерациям там, где это необходимо.
  • Легко перекомментировать (тратить время на маркировку деталей, которые не имеют решающего значения для процесса идентификации) или недостаточно аннотировать (пренебречь маркировкой деталей, которые оказываются важными).
  • В общем, доступных ориентиров было мало — советуйтесь с другими DS в командах, в компании, при определении требований. Если сторонние сервисы аннотаций позволяют подробно обсуждать и обеспечивать прозрачность, то работа с ними может помочь определить ваши требования.

Легко перекомментировать (тратить время на маркировку деталей, которые не имеют решающего значения для процесса идентификации) или недостаточно аннотировать (пренебречь маркировкой деталей, которые оказываются важными).

В этом посте мы рекомендуем ключевые требования к плану спецификации аннотаций, чтобы дать вам толчок к работе с конкретным документом с аннотациями и быстро добраться до положения, когда вы можете начать работу с аннотациями, например: общение со сторонними аннотаторами, чтобы получить котировки при планировании и составлении бюджета для внутренней работы. Эти рекомендации основаны на нашем опыте работы с Innotescus™, платформой AnnotationOps для машинного обучения на основе компьютерного зрения.

Элементы спецификации аннотации

Спецификация одинаково ценна независимо от того, выполняете ли вы аннотацию собственными силами или отдаете ее на аутсорсинг. План должен:

  1. Объявите требования к отбору комментаторов, включая знание предметной области или жизненный опыт, образование, культурное происхождение и стаж работы.
  2. Перечислите каждую категорию объекта и аспект, которые можно пометить, а также допустимые значения. Кроме того, объясните критерии, по которым назначаются уровни достоверности.
  3. Укажите приемлемые характеристики данных, например размер файла или формат изображения.
  4. Разрешить связывать идентификатор пользователя и отметку времени для каждой аннотации, отправленной комментатором.
  5. Подготовьтесь к учебному документу и репозиторию. Включите надежный набор примеров с правильной маркировкой. Работайте с командой аннотаторов, чтобы выявить неоднозначные ситуации и задокументировать правильный подход к каждой из них.
  6. Включите оценку качества в рамках проекта. Укажите варианты исправления, которые, возможно, потребуется предпринять, например, переписать или переоценить рекомендации по маркировке или переобучить аннотаторов. Если заранее четко указать альтернативы, становится более приемлемым внедрять эти усилия по мере необходимости для обеспечения успеха проекта.
  7. Назначьте старшего участника проекта в качестве точки эскалации для новых вопросов по маркировке и для сообщения о том, следует ли пересмотреть функции модели ML на основе опыта аннотаторов.
  8. В соответствии с приведенными выше требованиями команда аннотаторов должна предоставить прогнозируемую продолжительность и стоимость. (Другие договорные условия аутсорсинга будут рассмотрены в следующем посте).

Аннотации необходимы при работе с форматами данных, начиная от письменного текста и речевых записей и заканчивая неподвижными изображениями и видео. Те, кто находится за пределами поля зрения, могут подумать, что «собака всегда остается собакой», когда речь идет о визуальной идентификации. Тем не менее, у видения есть значительная доля неясностей, которые необходимо разрешить, в том числе:

  • Выражение лица сильно отражает текущее мышление и эмоциональное состояние человека, но правильное обозначение разницы между «изумлен» и «удивлен» требует тщательного рассмотрения, прежде чем просить комментаторов взять на себя эту задачу. Также стоит подумать о том, как культурные нормы влияют на интерпретацию самовыражения.
  • Особенно, если ваш обучающий набор изображений включает ночные или другие изображения при слабом освещении, необходимо предоставить инструкции о том, как обрабатывать трудно интерпретируемые элементы, такие как типы транспортных средств.

Использование платформы аннотаций

Подводя итог, можно сказать, что многие специалисты по данным недооценивают планирование и контроль аннотирования, потому что вопросы, возникающие в процессе аннотирования, с самого начала неясны. Это приводит к подходу, который является скорее импровизированным, чем тщательно спланированным. По нашему опыту, применение структурированной среды с поддерживающим набором программных инструментов для создания аннотаций обеспечивает более стабильный успех проекта, что, в свою очередь, повышает окупаемость ваших инвестиций в машинное обучение.

Innotescus — это инновационная платформа, обеспечивающая более качественные данные, более быстрое аннотирование и более глубокое понимание для эффективных приложений компьютерного зрения. Думайте о платформе как о первопроходце в области AnnotationOps. Он обеспечивает:

  • Простой в использовании пользовательский интерфейс для интуитивно понятной, точной и быстрой маркировки.
  • Обеспечение качества посредством мониторинга результатов и показателей прогресса.
  • Масштабируемость, включая средства приглашения внутренних комментаторов, коллег или третьих лиц для участия.
  • Эффективная итерация за счет раннего выявления смещения данных с помощью инструментов статистической визуализации и разработки функций.

Мы проводим пилотную программу платформы с организациями, которые получают выгоду от передовых возможностей распознавания изображений с высококачественными и эффективными аннотациями. Чтобы узнать больше, напишите нам или запросите участвовать в пилоте.

Первоначально опубликовано на https://innotescus.io 9 сентября 2020 г.