Типы аннотаций изображений для искусственного интеллекта и машинного обучения

Для компьютерного зрения существует множество типов аннотаций к изображениям, и каждый из этих методов аннотации имеет свое применение.

Вам интересно, чего вы можете достичь с помощью этих различных методов аннотации? Давайте рассмотрим различные методы аннотирования, используемые для приложений компьютерного зрения, а также некоторые специальные варианты использования этих конкретных форм аннотирования компьютерного зрения.

Типы аннотаций

Нам необходимо ознакомиться с различными подходами к аннотации изображений, прежде чем мы углубимся в варианты использования аннотаций изображений компьютерного зрения. Давайте рассмотрим наиболее распространенные методы аннотирования изображений.

1. Ограничивающие рамки

Ограничивающие рамки, отчасти из-за их гибкости и простоты, являются одной из наиболее широко используемых форм аннотации изображений во всех системах компьютерного зрения. Ограничивающие рамки окружают объекты и помогают локализовать интересующие объекты в сети компьютерного зрения. Их легко построить, просто задав координаты X и Y для верхнего левого и нижнего правого углов блока.

2. Полигональная сегментация

Полигональная сегментация — это еще одна форма аннотирования изображений, и теория, стоящая за ней, является просто расширением теории ограничивающих прямоугольников. Полигональная сегментация информирует устройство компьютерного зрения, где искать объект, но положение и границы объекта можно определить с гораздо большей точностью благодаря использованию сложных полигонов, а не просто прямоугольника.

Преимущество использования полигональной сегментации по сравнению с ограничивающими рамками заключается в том, что она удаляет значительную часть шума/ненужных пикселей объекта, которые потенциально могут запутать классификатор.

3. Линейная аннотация

Формирование линий и сплайнов, которые в основном используются для обозначения границ между одной частью изображения и другой, включает линейную аннотацию. Там, где область, которая должна быть аннотирована, может рассматриваться как граница, используется линейная аннотация, но для ограничивающей рамки или другой формы аннотации она слишком мала или тонка, чтобы иметь смысл.

Сплайны и линии просты для создания аннотаций для таких ситуаций, как обучение складских роботов выявлению несоответствий между участками конвейерной ленты или распознаванию полос для автономных транспортных средств, и широко используются для них.

4. Ориентир аннотации

Для систем компьютерного зрения четвертой формой аннотации изображения является аннотация ориентиров, часто называемая точечной аннотацией, поскольку она требует формирования точек/точек по всему изображению. Для обозначения объектов на изображениях, содержащих несколько мелких объектов, можно использовать только несколько точек, но обычно несколько точек соединяются вместе, чтобы представить контур или скелет объекта.

Размер точек может варьироваться, и часто используются более крупные точки, чтобы отличить важные/знаковые области от окружающих областей.

5. 3D кубоиды

Подобно ограничивающим рамкам, трехмерные кубоиды представляют собой мощный тип аннотаций изображений, поскольку они различают, где объекты должны искаться классификатором. Однако в дополнение к высоте и ширине трехмерные кубоиды имеют глубину.

Обычно опорные точки располагаются по краям детали, а линия заполняет пространство между опорными точками. Это обеспечивает трехмерное представление объекта, а это означает, что в трехмерной среде система компьютерного зрения может научиться различать такие функции, как объем и местоположение.

6. Семантика сегментации

Семантическая сегментация — это тип аннотации изображений, который включает в себя разделение изображения на разные области, присвоение каждому пикселю изображения метки.

Отдельно от других областей рассматриваются области изображения, которые несут разные смысловые значения/определения. Например, «небо» может быть одной частью изображения, а «трава» — другой. Основная идея заключается в том, что области определяются на основе семантической информации и что каждому пикселю, входящему в эту область, присваивается метка классификатором изображений.

Примеры использования типов аннотаций к изображениям

1. Ограничивающие рамки

В аннотациях изображений компьютерного зрения ограничительные рамки используются, чтобы помочь сетям локализовать артефакты. Граничные блоки выигрывают от моделей, которые локализуют и идентифицируют элементы. Популярное использование ограничительной рамки включает в себя любую ситуацию, когда объекты проверяются друг против друга на наличие столкновений.

Автономное вождение — очевидная реализация ограничивающих рамок и обнаружения объектов. Автономные системы вождения должны быть способны идентифицировать транспортные средства на дороге, но их также можно использовать для оценки безопасности на площадке в таких обстоятельствах, как маркировка объектов на строительных площадках и идентификация объектов в различных средах для роботов.

Варианты использования ограничительной рамки включают:

Использование видеозаписей с дронов для наблюдения за ходом строительных проектов, от первоначальной закладки фундамента до завершения, когда дом готов к заселению.

Чтобы автоматизировать аспекты процесса оформления заказа, идентифицируя продукты питания и другие предметы в продуктовых магазинах.

Обнаружение повреждений уличных транспортных средств, что позволяет проводить тщательный осмотр транспортных средств при подаче страховых требований.

2. Полигональная сегментация

Методом аннотирования объектов с использованием нескольких сложных полигонов является полигональная сегментация, позволяющая захватывать объекты неправильной формы. Полигональная сегментация используется по ограничивающим рамкам, когда важна точность. Поскольку полигоны могут улавливать очертания объекта, они минимизируют шум внутри ограничивающего прямоугольника, который может быть найден, что теоретически может снизить точность модели.

В автономном вождении выгодна многоугольная сегментация, когда элементы неправильной формы, такие как логотипы и уличные знаки, могут быть выделены, а автомобили расположены более точно по сравнению с использованием ограничивающих прямоугольников для определения местоположения автомобилей.

Для задач, где необходимо правильно аннотировать несколько объектов неправильной формы, таких как обнаружение объектов на изображениях, снятых со спутников и дронов, полигональная сегментация также полезна. Полигональная сегментация должна использоваться по ограничивающим прямоугольникам, если целью является точное обнаружение артефактов, таких как водные объекты.

В компьютерном зрении известные варианты использования полигональной сегментации включают:

Аннотации многих артефактов неправильной формы, найденных в городских пейзажах, таких как автомобили, деревья и бассейны.

Полигональная сегментация также может упростить обнаружение артефактов. Например, инструмент аннотирования многоугольников, Polygon-RNN, демонстрирует существенные улучшения как в скорости, так и в точности по сравнению с обычными методами, используемыми для аннотирования неправильных форм, а именно семантической сегментацией.

3. Линейная аннотация

Поскольку линейная аннотация предназначена для привлечения внимания к линиям на изображении, ее лучше всего использовать, если важные характеристики имеют линейный вид.

Распространенным случаем использования линейных аннотаций является автономное вождение, поскольку оно используется для обозначения полос на маршруте. Точно так же линейная аннотация может использоваться для указания промышленным роботам размещать определенные элементы между двумя линиями, обозначая целевую область. Для этих целей потенциально можно использовать ограничивающие рамки, но линейные аннотации являются гораздо более чистым вариантом, поскольку они устраняют большую часть шума, исходящего от используемых ограничивающих рамок.

Известные примеры линейных аннотаций для использования компьютерного зрения включают автоматическую идентификацию рядов культур и даже мониторинг положения ног насекомых.

4. Ориентир аннотации

Поскольку аннотация ориентира/точечная аннотация рисует маленькие точки, представляющие элементы, мелкие объекты обнаруживаются и количественно оцениваются как одно из ключевых применений. Например, использование обнаружения ориентиров для поиска объектов, представляющих интерес, таких как транспортные средства, здания, деревья или пруды, может потребоваться для просмотра городов с высоты птичьего полета.

Сказав это, аннотация ориентира может иметь и другие применения. Объединение нескольких ориентиров вместе, как в головоломке «Соедини точки», позволит получить очертания объектов. Эти точечные очертания можно использовать для определения черт лица или изучения движения и позы людей.

Некоторые примеры использования компьютерного зрения для аннотации ориентиров:

Благодаря тому, что отслеживание нескольких ориентиров облегчит определение чувств и других черт лица, распознавание лиц.

Аннотация ориентира также используется для геометрической морфометрии в области биологии.

5. 3D кубоиды

Когда система компьютерного зрения должна не только идентифицировать объект, используются трехмерные кубоиды, она также должна предсказывать общую форму и объем этого объекта. Когда система компьютерного зрения разрабатывается для автономной системы, способной к передвижению, чаще используются трехмерные кубоиды, поскольку им необходимо делать предположения об объектах в окружающем их мире.

Использование трехмерных кубоидов в компьютерном зрении предполагает разработку систем компьютерного зрения для автономных транспортных средств и роботов-локомотивов.

6. Семантическая сегментация

Потенциально неинтуитивный факт семантической сегментации заключается в том, что это, по сути, форма классификации, но, а не объект, классификация выполняется только для каждого пикселя в желаемой области. Когда это учитывается, становится легко использовать семантическую сегментацию для любой роли, где уместно классифицировать/распознавать большие, отдельные области.

Одним из приложений семантической сегментации является автономное вождение, когда ИИ автомобиля должен различать участки дороги и участки травы или тротуара.

Для семантической сегментации, помимо автономного вождения, дополнительные варианты использования компьютерного зрения включают:

Для выявления сорняков и отдельных видов сельскохозяйственных культур изучение посевных полей.

Распознавание медицинских изображений для диагностики, идентификации клеток и измерения кровотока.

Усилить усилия по сохранению, мониторинг лесов и джунглей на предмет обезлесения и нарушения биоразнообразия.

Вывод

Это всего лишь вопрос выбора правильных ресурсов для работы, чтобы можно было выполнить почти все, что вы хотите сделать с помощью компьютерного зрения. Теперь, когда вы лучше познакомились с различными формами аннотирования изображений и потенциальными вариантами их использования, лучше всего провести эксперимент, чтобы увидеть, какие стратегии аннотирования лучше всего работают с вашим приложением.

Вы также можете заказать бесплатную консультацию с TagX, чтобы рассмотреть правильную аннотацию для вашего проекта.

Типы аннотаций изображений для искусственного интеллекта и машинного обучения

Типы аннотаций

1. Ограничивающие рамки

2. Полигональная сегментация

3. Линейная аннотация

4. Ориентир аннотации

5. 3D кубоиды

6. Семантика сегментации

Примеры использования типов аннотаций к изображениям

1. Ограничивающие рамки

2. Полигональная сегментация

3. Линейная аннотация

4. Ориентир аннотации

5. 3D кубоиды

6. Семантическая сегментация

Вывод

Вопросы по теме