Решение Auto-Annotations для обнаружения объектов, распознавания объектов и задач сегментации

Автор: Аджай Аруначалам — старший научный сотрудник и исследователь данных (AI)

Привет друзья. В этом сообщении блога я хотел бы поделиться нашей работой, проделанной для автономного машинного создания меток данных с использованием технологии искусственного интеллекта.

Наша полная статья доступна здесь — https://lnkd.in/gJDKQCY

Прежде чем мы рассмотрим наш подход, сначала давайте разберемся, что такое маркировка данных с точки зрения непрофессионала. В машинном обучении маркировка данных — это просто процесс идентификации необработанных данных (изображений, видео, аудиофайлов, текстовых файлов и т. д.) и добавление одного или более содержательные и информативные метки для предоставления контекста, чтобы модель машинного обучения могла учиться и делать выводы. Большинство современных моделей машинного обучения в значительной степени полагаются на доступность большого количества размеченных данных, что является важным шагом в контролируемых задачах. Маркировка данных требуется для различных вариантов использования, включая компьютерное зрение, обработку естественного языка и распознавание речи. Традиционно этот утомительный и обыденный процесс маркировки данных до сих пор в основном выполняется людьми. Чтобы помочь людям свести к минимуму безумную тяжелую работу и усилия по маркировке данных с нуля, мы предлагаем автоматизированное алгоритмическое решение, целью которого является сокращение большей части ручной работы. Давайте пройдемся по справочнику, где действительно нужны такие размеченные данные. Здесь я расскажу о задачах компьютерного зрения. Компьютерное зрение просто воспроизводит сложность человеческого зрения (зрение человеческого глаза) и понимание того, что его окружает. Задачи компьютерного зрения включают методы получения, обработки, анализа и понимания цифровых изображений, а также извлечения многомерных данных из реального мира для получения числовой или символьной информации, например. в формах решений. В области Computer Vision есть много разных задач. Я не буду вдаваться в подробности о них, например. классификация, обнаружение, сегментация и т. д. Но на диаграмме ниже представлен четкий обзор и цели этих задач с примером объекта в контексте. — «Банан».

ПРИМЕР КОНТЕКСТА — НЕОБХОДИМОСТЬ ПОМЕЧЕННЫХ ДАННЫХ

Чтобы контролируемая модель могла обнаружить объект — «банан», аннотированные метки передаются модели, чтобы она могла изучить представление банановых пикселей и локализовать их в контексте, который затем можно использовать. сделать вывод о невидимых/новых данных. Задача сегментации экземпляров направлена ​​на обнаружение объектов, локализацию этих объектов и предоставление информации об их количестве, размере и форме. Мы используем одну из таких современных моделей сегментации экземпляров — «Mask R-CNN» в качестве базовой основы для нашей структуры, но здесь можно использовать любую другую сетевую архитектуру в соответствии с их требованиями и цель. Мы придерживались маски R-CNN из-за ее эффективности в обнаружении объектов на изображении при создании высококачественных сегментированных масок для каждого объекта. Для нашего конкретного протестированного случая обнаружения инфекции COVID решающее значение имеет точное расположение зараженных областей, поэтому в этом контексте более подходящим было обнаружение на уровне пикселей.

НАШ МЕТОД

Конвейер нашего инструмента, как показано ниже, в основном состоит из детектора и трекера, модуля автоматической маркировки и модуля ввода-вывода для вывода и сохранения машинных аннотированных меток на диск.

Шаг 1: - Обнаружение и отслеживание объектов для классификации на уровне пикселей

Для обнаружения инфекции COVID использовалась пользовательская слабообученная модель маски-RCNN с очень небольшим количеством помеченных экземпляров (‹ 10 образцов). Для маркировки зараженных областей мы использовали инструмент аннотирования изображений VGG Image Annotator (VIA). Это простое и автономное программное обеспечение для ручной аннотации изображений, аудио и видео. VIA работает в веб-браузере и не требует установки или настройки. Полное программное обеспечение VIA умещается на одной автономной HTML-странице размером менее 400 килобайт, которая запускается как автономное приложение в большинстве современных веб-браузеров. VIA — это проект с открытым исходным кодом, основанный исключительно на HTML, Javascript и CSS (без зависимости от внешних библиотек). VIA разработан в Visual Geometry Group (VGG) и выпущен под лицензией BSD-2, что позволяет использовать его как для академических проектов, так и для коммерческих приложений. Детектор используется для получения локализуемой маски, ограничивающей рамки и класса. Затем, чтобы равномерно отслеживать и маркировать несколько зараженных областей во входном потоке видеоданных, мы использовали алгоритм отслеживания центриоидов. Фрагмент нашего детектора covid mask-RCNN приведен ниже.

Шаг 2: ПОКАДРОВАЯ МАРКИРОВКА ДАННЫХ

Вывод из предварительно обученной модели детектора используется для получения позиций ограничительных рамок и создания метаданных json. После сегментации кадра с использованием Mask-RCNN генерируется соответствующая область интереса (ROI). Далее генерируются маски для каждой области интереса с последующим определением контуров по всему кадру изображения. Затем из контуров извлекаются координаты (x,y). Наконец, эти атрибуты формы, области и координат сохраняются на диск кадр за кадром. Фрагмент нашего алгоритма автоматической маркировки приведен ниже.

ПРИМЕР — ОБНАРУЖЕНИЕ ИНФЕКЦИИ COVID-19 И АВТОМАРКИРОВКА

Мы протестировали наш метод с целью создания автоматических компьютерных меток для регионов, зараженных Covid. Результаты машинной этикетки и аннотированной человеком этикетки показаны ниже. Видно, что механизм автоматического аннотирования генерирует синтетические метки достаточно хорошего качества, которые можно использовать для переобучения модели обнаружения объектов или создания большего количества аннотированных данных, которые можно использовать для различных задач.

РЕЗЮМЕ

Маркировка данных — нетривиальная задача и один из важнейших компонентов конвейера контролируемого обучения. Это одна из таких задач, которая требует много ручных усилий. Итак, тогда мы можем заставить большую часть таких рутинных, трудоемких и трудоемких усилий автономно управляться машинами, стремясь свести к минимуму объем человеческих задач. Мы фокусируемся на этой общей универсальной проблеме с помощью нашего интуитивно понятного подхода, чтобы в значительной степени устранить узкие места, связанные с ограниченным количеством меток или необходимостью самостоятельно маркировать множество экземпляров с нуля.

Примечание. В настоящее время наш инструмент находится на стадии альфа-тестирования. В настоящее время наша разработанная структура основана на маске R-CNN и формате аннотаций VIA. Мы также стремимся обобщить наш прототип, включив в него различные современные детекторы, такие как YOLO и соответствующий формат аннотаций, совместимый с YOLO. Кроме того, мы также планируем интегрировать формат аннотаций COCO. Было бы целесообразно интегрировать все различные аннотации изображений как часть нашей структуры, одновременно предоставляя возможность предоставления различных библиотек, например, Torch, TensorFlow, Caffe и т. д.

СВЯЖИТЕСЬ СО МНОЙ

Вы можете связаться со мной по адресу [email protected]или связаться со мной через Linkedin

Спасибо за чтение.

Продолжай учиться!!! Проверьте мою страницу github здесь

Использованная литература:-



https://whatis.techtarget.com/definition/data-labeling

https://aws.amazon.com/sagemaker/groundtruth/what-is-data-labeling/

https://www.geeksforgeeks.org/object-detection-vs-object-recognition-vs-image-segmentation/

https://www.robots.ox.ac.uk/~vgg/software/via/

https://github.com/matterport/Mask_RCNN

https://www.telusinternational.com/articles/5-approaches-to-data-labeling-for-machine-learning-projects

https://engineering.matterport.com/splash-of-color-instance-segmentation-with-mask-r-cnn-and-tensorflow-7c761e238b46