Обнаружение объектов - это, безусловно, одна из самых важных областей исследований в области компьютерного зрения. Исследователи в течение долгого времени интересовались этой областью, но в последние годы были достигнуты значительные результаты в связи с появлением Convnets как экстракторов признаков и Transfer Learning как метода передачи предыдущих знаний. Ранние детекторы объектов основывались на функциях ручной работы и использовали подход на основе скользящего окна, который был вычислительно неэффективным и менее точным. Современные методы включают в себя методы предложения области, методы одиночного выстрела, методы без привязки и так далее.

A) Обнаружение объекта: Обнаружение объекта относится к методу идентификации и правильной маркировки всех объектов, присутствующих в кадре изображения.

В целом это состоит из двух этапов:

1: Локализация объекта: здесь ограничивающая рамка или охватывающая область определяется максимально плотно, чтобы определить точное положение объекта на изображении.

2: Классификация изображений: локализованный объект затем передается классификатору, который маркирует объект.

Б) Семантическая сегментация: это процесс связывания каждого пикселя в данном изображении с определенной меткой класса. Например, на следующем изображении пиксели помечены как автомобиль, дерево, пешеход и т. Д. Эти сегменты затем используются для поиска взаимодействий / отношений между различными объектами.

C) Сегментация экземпляра. Здесь мы связываем метку класса с каждым пикселем аналогично семантической сегментации, за исключением того, что она обрабатывает несколько объектов одного и того же класса как отдельные объекты / отдельные объекты.

D) Паноптическая сегментация: это комбинация экземпляра и семантической сегментации, при которой мы связываем с каждым пикселем два значения: его метку класса и номер экземпляра. Он также распознает небо, дорогу и другие фоновые элементы, известные как материал.

Важные понятия:

  1. Ограничивающая рамка: это плотный прямоугольник, используемый для окружения интересующего объекта. Обычно это описывается четырьмя значениями: (bx, by, bh, bw).

Где (bx, by) - координаты центра прямоугольника, а bh, bw - высота и ширина прямоугольника, соответственно, измеренные по шкале от 0 до 1.

2. Якорные рамки: это набор предопределенных ограничивающих рамок определенной высоты и ширины. Эти поля определены для захвата масштаба и соотношения сторон определенных классов объектов, которые вы хотите обнаружить, и обычно выбираются на основе размеров объектов в ваших наборах данных для обучения. Во время обнаружения предопределенные якорные блоки располагаются по всему изображению. Сеть предсказывает вероятность и другие атрибуты, такие как фон, пересечение по объединению (IoU) и смещения для каждого мозаичного якорного блока. Прогнозы используются для уточнения каждого отдельного якорного блока. Вы можете определить несколько якорных ящиков, каждое для разного размера объекта.

Таким образом, сеть уточняет эти якорные рамки, чтобы, наконец, вывести плотно ограничивающие прямоугольники. Они определяются масштабом и соотношением сторон.

Соотношение сторон - это ширина / высота коробки.

Размер - это высота и ширина коробки. например (256 x 256)

Масштаб - коэффициент умножения требуемой коробки относительно базовой коробки.

3. Пересечение Союза (долговая расписка):

Это оценочная метрика, используемая для проверки точности прогнозируемой ограничивающей рамки относительно фактических истинных значений.

Долговая расплата в размере ›0,5 считается хорошим прогнозом и используется для дальнейшей оценки.

4. Подавление без максимальных значений: если для данного объекта присутствует несколько ящиков, то, как следует из названия, этот метод отбрасывает все ящики, кроме того, у которого есть максимальная долговая расписка.

5. Двоичная маска: это двумерный массив, в котором есть точка данных, представляющая одинаковую ширину и высоту изображения в пикселях.

Каждый пиксель в нашей маске помечен как 1 или 0 (true или false) в зависимости от того, принадлежит он предсказанному экземпляру или нет.

Показатель: средняя средняя точность:

Средняя средняя точность или mAP - это показатель, используемый для количественной оценки точности детекторов объектов.

В первую очередь,

Средняя точность для изображения означает точность, усредненную по всем экземплярам объектов, присутствующих на изображении.

mAP - это средняя точность, усредненная для долговых обязательств от 0,5 до 0,95 с размером шага 0,05.

Обычно mAP выражается в процентах.

ПРЕДЛОЖЕНИЯ РЕГИОНОВ:

A) RCNN: RCNN - это алгоритм обнаружения объектов на основе предложения региона. Расшифровывается как региональная сверточная нейронная сеть.

Включенные шаги:

1) Сегментация:

Оригинальная статья [1] Гиршика и др. al. Использует метод выборочного поиска для создания около 2000 предложений по регионам.

1.1) Выборочный поиск:

Выборочный поиск использует алгоритм иерархической группировки для создания предложений по регионам.

1.1.1) Создание начальных регионов:

Сначала он запускает алгоритм сегментации изображения на основе графа, чтобы получить начальные области, как показано в крайнем левом столбце изображения ниже.

1.1.2) Мера сходства:

Мы находим сходство между регионами по следующим критериям:

  1. Цвет

2. Текстура

3 .Размер

4. Совместимость форм

Метрика подобия получается следующим образом:

s (ri, rj) = a1Scolour (ri, rj) + a2Stexture (ri, rj) + a3Ssize (ri, rj) + a4Sfill (ri, rj)

1.3) Рекурсивная группировка:

Начиная с этих начальных регионов, мы рекурсивно группируем эти регионы на основе метрики сходства. Мы останавливаемся, как только набирается необходимое количество предложений.

1.2) Деформация: размер каждого предложения региона изменяется (масштабируется) до требуемого входного размера Convnet и заключен в плотную рамку.

1.3) Извлечение признаков: каждая из этих деформированных областей передается один y один в Convnet, который выводит вектор признаков длины 4096.

1.4) Классификация: вектор признаков длиной 4096 затем передается в SVM, который классифицирует наличие объекта и присваивает ему метку.

1.5) Регрессор ограничивающей рамки: в дополнение к метке класса rcnn использует линейный регрессор, который выводит координаты ограничивающей рамки для объекта.

6) Подавление долговых расписок и не максимальных значений: в случае перекрытия выбирается наиболее оцененная область, а остальные отбрасываются.

Б) Быстрый RCNN:

Это импровизированная версия rcnn, поскольку она устраняет некоторые недостатки rcnn.

Преимущества:

1. Более высокое качество обнаружения (MAP), чем у R-CNN, SPPnet

2. Время вычислений сокращается, так как это одностадийный процесс.

3. Не требует дополнительного дискового пространства для кэширования промежуточных функций.

4. Меньшие параметры по сравнению с rcnn и SPPnet.

Процесс:

1) Создание карты характеристик: все изображение подается вместе с предложениями объектов в Convnet. При прохождении слоев Conv и Max Pooling получается карта объектов.

2) Объединение областей интереса: интересующей области (ROI) на карте функций даны координаты y (r, c, h, w). Затем эта область интереса проходит через слой объединения областей интереса для получения карты функций H x W.

3. Полностью связанные слои: эта карта характеристик затем извлекается на слой FC и затем передается через слои FC в softmax для прогнозирования вероятности класса и в регрессор для выходных данных регрессии ограничивающей рамки.

C) Более быстрый RCNN:

Более быстрая модель RCNN была предложена Россом Гиршиком и др. al. [3] как эффективное с вычислительной точки зрения решение для обнаружения объектов.

Преимущества перед Fast RCNN:

1. Это устраняет вычислительные узкие места при определении предложений области по изображению.

2. Для этой цели он использует полностью сверточную нейронную сеть, которая делает ее однопоточным конвейером.

3. RPN, представленный в этой статье [3], также имеет общие черты с детектором объектов.

Архитектура и работа:

1) Создание карты характеристик: изображение проходит через слои Conv, которые выводят карту характеристик.

2) Сеть предложения региона: скользящее окно используется в RPN для каждого местоположения на карте объектов.

3) Якоря: для каждого местоположения используются k (k = 9) якорных ящиков (3 масштаба 128, 256 и 512 и 3 соотношения сторон 1: 1, 1: 2, 2: 1) для создания предложений по регионам.

4) Классификация: слой cls выводит 2k оценок независимо от того, есть ли объект для k блоков.

5) Регрессия: слой reg выводит 4k для координат (координаты центра прямоугольника, ширина и высота) k коробки.

6) Сеть обнаружения: За исключением части RPN, сеть обнаружения такая же, как и у Fast rcnn.

7) Альтернативное обучение: части RPN и обнаружения обучаются поочередно, так что они разделяют функции, изученные друг другом.

D) Маска RCNN:

Маска RCNN расширяет Faster Rcnn, добавляя параллельную выходную ветвь маски. Это очень важный метод, используемый при сегментации экземпляров.

Мотивация:

1. Более быстрые алгоритмы обнаружения объектов Rcnn, Yolo и другие выводят ограничивающий прямоугольник и метку вероятности класса, связанную с этим прямоугольником.

2. Мы, люди, не находим объекты реальной жизни, рисуя вокруг них рамки, вместо этого мы смотрим на контур и позу объекта, чтобы обнаружить его.

3. В этом отношении маска rcnn приближается к человеческому стилю восприятия объекта.

4. Исследование маски rcnn побуждает нас к дальнейшим исследованиям в области паноптической сегментации, определения ключевых точек человека, оценки спортивной позы и т. Д.

5. Все беспилотные автомобили используют фундаментальную концепцию, скрытую за маской rcnn.

Архитектура и реализация:

1. Маска R-CNN использует ту же двухэтапную процедуру с идентичным первым этапом (которым является RPN).

2. На втором этапе, параллельно с прогнозированием смещения класса и блока, Mask R-CNN также выводит двоичную маску для каждого RoI.

Слой выравнивания области интереса:

я. Уровень пула ROI в Faster Rcnn выполняет квантования, такие как перекрытие значений с плавающей запятой, и функции агрегирования, такие как Maxpool.

II. Такие операции приводят к грубым признакам, разрушающим более мелкие пиксельные компоновки, которые необходимы, например, для сегментации.

iii. Чтобы противостоять этому, Mask Rcnn использует слой ROI Align, который использует билинейную интерполяцию вместо квантования, которая сохраняет выравнивание пикселей и улучшает точность маски.

Текущие исследования и перспективы:

Паноптическая сегментация: в последних публикациях CVPR используется модель маски rcnn и строится поверх нее для достижения современных результатов на популярных наборах данных, таких как City-Scapes.

Mesh Rcnn: Это очень точная система, предложенная Джорджией Гкиоксари и др. al. используется для предсказания 3-D формы, которое дополняет модели rcnn маски ветвью предсказания сетки для генерации воксельных представлений.

Ссылки:

  1. Р. Гиршик, Дж. Донахью, Т. Даррелл и Дж. Малик. Богатые иерархии функций для точного обнаружения объектов и семантической сегментации. В CVPR, 2014 г.
  2. Р. Гиршик. Быстрый R-CNN. В ICCV, 2015 г.
  3. Более быстрый R-CNN: Обнаружение объектов в реальном времени с помощью сетей предложения регионов. В НИПС, 2015 г.
  4. Кайминг Хе, Джорджия Гкиоксари, Петр Доллар и Росс Гиршик. Маска R-CNN. В ICCV, 2017 г.

5. Ссылки на изображения: Google

Свяжитесь со мной на Linkedin !!

Спасибо !!!