Аннотации к изображениям - это процесс выбора объектов на изображениях и пометки объектов классами, атрибутами и тегами для создания набора обучающих данных для моделей машинного обучения. Подобная подготовка данных изображения - основа искусственного интеллекта компьютерного зрения. Например, чтобы построить модель компьютерного зрения для распознавания типов крыш на спутниковых снимках, необходимо аннотировать от десятков тысяч до миллионов изображений крыш в разных городах, погодных условиях и т. Д.

Помимо аэрофотоснимков, аннотированные данные широко используются в автономном вождении, безопасности и наблюдении, медицинской визуализации, робототехнике, автоматизации розничной торговли, AR / VR и т. Д. Увеличение количества данных изображений и приложений компьютерного зрения требует огромного количества обучающих данных. На подготовку данных и инженерные задачи приходится более 80% времени, затрачиваемого на проекты искусственного интеллекта и машинного обучения. Поэтому за последние несколько лет было создано множество сервисов и инструментов для аннотации данных, чтобы удовлетворить потребности этого рынка.

Многие компании, занимающиеся аэрофотосъемкой, пытаются решить одни из самых сложных проблем в мире в таких областях, как вырубка лесов, сельское хозяйство, страхование жилья, строительство, безопасность и другие. В большинстве этих приложений объекты на снимках со спутников или дронов далеки от прямоугольной формы. Вместо прямоугольной локализации или подсчета количества объектов в пространстве (с использованием ограничивающих рамок) компаниям часто требуются инструменты для расчета точных пикселей на основе данных аэрофотоснимка.

Хотя существует значительная потребность в точности пикселей для определения различных объектов на аэрофотоснимках, наиболее распространенной техникой аннотации по-прежнему остается ограничивающая рамка, поскольку она относительно проста, и многие алгоритмы обнаружения объектов были разработаны с учетом этого метода (YOLO, Faster R -CNN и т. Д.). Однако прямоугольные аннотации не только плохо подходят для задач аэрофотосъемки, но они также не позволяют достичь сверхчеловеческой точности обнаружения независимо от того, какой объем обучающих данных вы используете. В основном это связано с дополнительным шумом вокруг объекта, который попадает в область рамки. В то время как алгоритмы сегментации экземпляров, обученные на одной и той же магистральной нейронной сети, работают на 3–5% более точно (оценка MAP) по сравнению с обучением только на ограничивающих прямоугольниках.

Пиксельная точность аэрофотоснимков

Аннотации с точностью до пикселя могут обеспечить огромные преимущества для приложений компьютерного зрения аэрофотоснимков. Тем не менее, наиболее распространенные инструменты для таких аннотаций в значительной степени полагаются на медленные инструменты выбора объектов по точкам, когда аннотатор должен проходить через края объектов. Это не только очень трудоемко и дорого, но и очень чувствительно к человеческим ошибкам. Для сравнения: такие задачи аннотации с точностью до пикселя обычно требуют в 10 раз больше времени, чем установка простых ограничивающих рамок. В результате во многих случаях компании застревают в использовании ограничивающих рамок для аннотаций, в то время как в других случаях компаниям сложно собрать большие объемы аннотаций с точностью до пикселя.

Подходы на основе ИИ / сегментации

Учитывая значительный объем человеческих усилий, необходимых для аннотирования изображений, исследовательское сообщество приложило значительные усилия для создания более эффективных методов аннотирования с точностью до пикселя. Существуют подходы, которые используют решения на основе сегментации (например, суперпиксели SLIC, сегментация на основе GrabCut) для пиксельной аннотации. Однако эти подходы выполняют сегментацию на основе цветов пикселей и часто показывают низкую производительность и неудовлетворительные результаты в реальных сценариях, таких как аэрофотоснимки. Следовательно, они обычно не используются для таких задач аннотации.

За последние 4 года NVIDIA провела обширное исследование с Университетом Торонто в отношении решений для аннотаций с точностью до пикселя. Их исследования в основном сосредоточены на создании полигонов с точностью до пикселя из заданного ограничивающего прямоугольника и включают следующие статьи - Polygon RNN, Polygon RNN ++, Curve-GCN, Deformable Grid -, опубликованные на CVPR в 2017, 2018, 2019, ECCV 2020 соответственно. В лучшем случае для создания многоугольника с помощью этих инструментов требуется как минимум два точных щелчка (т. Е. Создание ограничивающей рамки) и надежда, что он точно захватит целевой объект. Однако предлагаемые многоугольники обычно неточны, и это может занять гораздо больше времени, чем ожидалось (см. Пример ниже).

Другой проблемой таких подходов на основе многоугольников является сложность выбора объектов, подобных пончику (с точки зрения топологии), когда для описания таких объектов требуется как минимум два многоугольника.

Новый подход к пиксельной аннотации

Мы поняли, что самый простой и быстрый способ пиксельной аннотации - это разработать метод выбора объектов одним щелчком мыши. Было бы важно, чтобы этот метод учитывал различные сценарии, пропущенные различными методами пиксельной аннотации, описанными ранее. Это привело нас к разработке нашей технологии интеллектуальной сегментации, которая использует новый подход к обнаружению краев, позволяя пользователю выбирать объекты одним щелчком мыши, преодолевая ограничения, от которых страдают другие алгоритмы.

Наши эксперименты показали, что с интеллектуальной сегментацией пиксельные аннотации можно ускорить в 10 раз без ущерба для качества аннотаций. Вот пример того, как это работает.

Мы также проанализировали преимущества нашего решения по сравнению с другими подходами на основе ИИ или сегментации:

  • Сегментация выполняется в автономном режиме, что позволяет аннотировать изображения размером до 10 мегапикселей в режиме реального времени.
  • В отличие от суперпикселей SLIC, решение для сегментации точно генерирует неоднородные области, позволяя пользователям выбирать как большие, так и маленькие объекты одним щелчком мыши.
  • Программа позволяет мгновенно изменять количество сегментов, что позволяет выделять даже самые маленькие объекты.
  • Функция самообучения еще больше повышает точность сегментации. Следовательно, после нескольких сотен аннотаций можно наблюдать резкие изменения в точности сегментации, что еще больше ускоряет процесс аннотации.
  • По сравнению с рассмотренными выше методами на основе прямоугольника в многоугольник, программное обеспечение позволяет выбирать объекты в стиле бублика одним щелчком мыши.
  • По мере увеличения количества аннотированных данных наше программное обеспечение позволяет автоматически добавлять аннотации с точностью до пикселя (подробнее здесь).

Даже по сравнению со скоростью базовой аннотации ограничивающей рамки, которая требует как минимум 2 точных щелчков мыши для аннотирования одного объекта, нам нужен только 1 приблизительный щелчок внутри сегмента, что иногда делает это даже быстрее, чем создание ограничивающей рамки.

Благодаря интеллектуальной сегментации мы можем увеличить скорость пиксельных аннотаций до ограничивающих прямоугольников, в то же время, наконец, позволяя командам компьютерного зрения создавать модели, которые могут достигать сверхчеловеческих уровней точности обнаружения, которые иначе недостижимы с ограничивающими прямоугольниками. Более того, поскольку пиксельная точность устраняет шум, который существует в ограничивающих прямоугольниках, требуется гораздо меньше данных для достижения аналогичных уровней точности.

Заключительные замечания. Мы только начинаем поверхностно разбираться в приложениях компьютерного зрения и выявлять проблемы, которые может решить наша отрасль. По мере того, как эти проблемы становятся более сложными, а требования к точности становятся более строгими, необходимо будет улучшить качество обучающих данных для удовлетворения этих требований к производительности. Переход от ограничивающих рамок к аннотациям с точностью до пикселя и поиск масштабируемых способов сделать это - ключ к достижению такого высокого качества данных. Кроме того, с наступлением новой эры огромных вычислительных мощностей и развития новых алгоритмов аннотации с точностью до пикселя становятся новой нормой, дающей начало более точному и сложному видению и аналитике.

Обзор SuperAnnotate

SuperAnnotate - это платформа аннотаций, которая позволяет командам компьютерного зрения быстро аннотировать даже самые сложные проекты аннотаций с точностью до пикселя. Наша платформа использует машинное обучение и функции на основе рабочих процессов, чтобы помочь компаниям увеличить скорость аннотации до 10 раз, резко улучшив качество обучающих данных и повысив эффективность управления проектами аннотаций. У нас также есть интегрированные услуги на платформе, что дает нашим клиентам возможность получить доступ к тысячам профессионально управляемых внешних аннотаторов, вооруженных нашими молниеносными инструментами. С помощью SuperAnnotate компании могут разрабатывать самые быстрые и масштабируемые конвейеры данных компьютерного зрения.

Платформа SuperAnnotate особенно эффективна для аэрофотоснимков, где широко используются аннотации с точностью до пикселя и многоугольники. Наши инструменты для аннотаций с точностью до пикселя, в том числе наша лучшая в своем классе функция автоматического обнаружения краев, обеспечивают быстрое ускорение времени аннотации, обеспечивая при этом аннотации более высокого качества.

Нас поддерживают венчурные компании, такие как Point Nine Capital, Runa Capital, Fathom Capital, Berkeley SkyDeck, Plug and Play Ventures и SmartGateVC.

Если вы хотите узнать больше о нашей молниеносной платформе и службах аннотаций, запросите демонстрацию.

Автор: Ваан Петросян, технический директор SuperAnnotate

Первоначально опубликовано на https://blog.superannotate.com.