Насколько надежен ваш детектор?

Может ли ваш детектор объектов обнаруживать людей и лошадей на следующем изображении?

Что, если то же изображение повернуть на 90 градусов? Может ли он обнаруживать людей и лошадей?

Или кот на этих изображениях?

Мы прошли долгий путь в развитии компьютерного зрения. Алгоритмы обнаружения объектов с использованием ИИ превзошли людей в определенных задачах. Но почему до сих пор сложно обнаружить человека, если изображение повернуто на 90 градусов, кошку, если она лежит в необычном положении, или объект, если видна только его часть.

Со времен AlexNet в 2012 году было создано множество моделей для обнаружения и классификации объектов, и они становятся все лучше с точки зрения точности и эффективности. Однако большинство моделей обучаются и тестируются в идеальных сценариях. Но на самом деле сценарий, в котором используются эти модели, не всегда идеален: фон может быть загроможден, объект может деформироваться или может быть закрыт. Возьмем для примера изображение кота ниже. Любой детектор объектов, обученный обнаруживать кошку, без сбоев обнаружит кошку на изображении слева. Но на изображении справа большинство детекторов могут не обнаружить кошку.

Задачи, которые считаются тривиальными для человека, безусловно, представляют собой проблему для компьютерного зрения. Нам, людям, легко идентифицировать человека, независимо от изображения в любой ориентации, кота в разных позах или чашки, рассматриваемой под любым углом.

Давайте рассмотрим 6 таких препятствий для надежного обнаружения объектов.

1. Варианты точки зрения

Объект, рассматриваемый под разными углами, может выглядеть совершенно по-разному. На простом примере чашки (со ссылкой на изображения ниже) первое изображение, показывающее вид сверху чашки с черным кофе, выглядит совершенно иначе, чем второе изображение с видом сбоку и сверху чашки с капучино, а третье изображение - со стороной вид на чашку.

Это одна из проблем при обнаружении объектов, потому что большинство детекторов обучаются изображениям только с определенной точки зрения.

2. Деформация

Многие интересующие объекты не являются твердыми телами и могут быть сильно деформированы. В качестве примера рассмотрим изображения йогов в разных позах ниже. Если детектор объектов обучен обнаруживать человека с обучением, которое включало только человека, сидящего, стоящего или идущего, он может быть не в состоянии обнаруживать людей на этих изображениях, поскольку функции на этих изображениях могут не совпадать с теми, о которых он узнал. люди во время тренировки.

3. Окклюзия

Интересующие объекты могут быть закрыты. Иногда может быть видна только небольшая часть объекта, всего несколько пикселей.

Например, на изображении выше объект (чашка) закрывается рукой человека, держащего чашу. Когда мы видим только часть объекта, в большинстве случаев мы можем сразу определить, что это такое. Детекторы объектов, однако, не работают так же.

Другой пример окклюзии - изображения, на которых человек держит мобильный телефон. На этих изображениях сложно обнаружить мобильные телефоны:

4. Условия освещения

Эффекты освещения на пиксельном уровне очень сильны. Объекты имеют разные цвета при разных условиях освещения. Например, камера наружного видеонаблюдения подвергается воздействию различных условий освещения в течение дня, яркого дневного света, вечернего и ночного света. Изображение пешехода выглядит по-разному в этих различных условиях освещения. Это влияет на способность детектора надежно обнаруживать объекты.

5. Загроможденный или текстурированный фон.

Интересующие объекты могут сливаться с фоном, что затрудняет их идентификацию. Например, кошка и собака на изображениях ниже замаскированы ковриком, на котором они сидят / лежат. В этих случаях детектор объектов столкнется с проблемами при обнаружении кошек и собак.

6. Внутриклассовая вариация

Интересующий объект часто может быть относительно широким, например, дом. Есть много разных типов этих объектов, каждый со своим внешним видом. На всех изображениях ниже представлены разные типы домов.

Хороший детектор должен быть достаточно надежным, чтобы обнаруживать перекрестное произведение всех этих вариаций, при этом сохраняя чувствительность к межклассовым вариациям.

Решения

Для создания надежного детектора объектов убедитесь, что есть хорошие вариации обучающих данных для разных точек обзора, условий освещения и объектов на разном фоне. Если вы не можете найти тренировочные данные реального мира со всеми вариациями, используйте методы увеличения данных, чтобы синтезировать нужные вам данные.

Какие методы вы использовали, чтобы сделать свой детектор объектов надежным? Оставьте свои мысли в комментариях ниже.

Первоначально опубликовано в www.xailient.com/blog.

Хотите реализовать обнаружение лиц в реальном времени на Raspberry Pi? Посмотрите этот пост.

Другие истории:

Интегрируйте функцию распознавания лиц в свое приложение

Проблемы запуска компьютерного зрения с глубоким обучением на устройствах с ограниченными вычислительными возможностями

Проблемы обнаружения запущенных объектов на Raspberry Pi

Вам нужно перейти от облачных вычислений к пограничным вычислениям!

Об авторе

Сабина Похрель работает в Xailient, стартапе в области компьютерного зрения, который создал самый быстрый в мире детектор объектов, оптимизированный для Edge.

Ссылки:





Пахуджа А., Маджумдер А., Чакраборти А. и Венкатеш Бабу Р. (2019). Повышение сегментации заметных объектов с помощью внимания. Препринт arXiv arXiv: 1905.11522.

Майер В., Эши М. и Штейнбах Э. (2011, сентябрь). Обнаружение объектов на основе изображений при переменном освещении в средах с зеркальными поверхностями. В 2011 18-я Международная конференция IEEE по обработке изображений (стр. 1389–1392). IEEE.

Цай, Ю., Ду, Д., Чжан, Л., Вэнь, Л., Ван, В., Ву, Ю., и Лю, С. (2019). Управляемая сеть внимания для обнаружения объектов и подсчета дронов. Препринт arXiv arXiv: 1909.11307.

Сяо, Э., и Хеберт, М. (2014). Обоснование окклюзии для обнаружения объекта с произвольной точки зрения. Транзакции IEEE по анализу образов и машинному интеллекту, 36 (9), 1803–1815.