Это краткий обзор некоторых интересных методов обнаружения объектов и введение в RetinaNet.

В августе 2017 года команда Facebook Artificial Intelligence Research (FAIR) опубликовала статью, в которой рассмотрела проблему, с которой страдают одноступенчатые детекторы объектов и которые не могут конкурировать с двухступенчатыми детекторами с точки зрения точности. Но RetinaNet - одноступенчатый детектор преодолевает эту проблему и превосходит лучший двухступенчатый детектор, оставаясь при этом быстрым.

Но как??

Давайте начнем.

Контур:-

1. Одноэтапные и двухступенчатые детекторы.

2. Проблема с одноэтапной

3. Потеря фокуса

4. RetinaNet

5. Результаты

1. Одноэтапные и двухступенчатые детекторы

Одноступенчатые детекторы

Одноэтапные детекторы делают прогнозы об объекте на изображении на сетке, промежуточной задачи нет. Таким образом, они берут изображение в качестве входных данных и пропускают его через определенное количество сверточных слоев и находят ограничивающие прямоугольники, которые могут содержать объект, а затем выполняют прогноз. Эти модели используют уже обученные классификаторы изображений в качестве основной сети для идентификации объектов на изображении. Это приводит к более простой и быстрой модели, но не по точности по сравнению с двухкаскадными детекторами.

Некоторые популярные одноступенчатые детекторы объектов: Single Shot Detection (SSD), You Only Look Once (YOLO).

Двухступенчатые детекторы

В отличие от одноступенчатых детекторов, двухступенчатые детекторы используют два каскада для идентификации объектов на изображении.

  • Первый этап содержит несколько сетей предложения регионов (RPN), которые значительно сокращают количество местоположений, которые могут содержать объекты (иногда также называемые областью интереса (ROI)). Итак, на втором этапе нам не нужно искать объекты на изображении по всем точкам изображения, а только по тем, которые предложены RPN.

  • Двухступенчатые детекторы также используют некоторый предварительно обученный классификатор изображений в качестве магистральной сети.
  • Некоторые методы выборки, такие как Online Hard Example Mining (OHEM) или установка отношения переднего плана к фону, также используются для достижения баланса между классами.
  • На втором этапе выполняется классификация местоположений объектов и маркировка объектов на основе достоверности модели.
  • двухступенчатые детекторы работают лучше, чем одноступенчатые, но они очень медленные по сравнению с одноступенчатыми детекторами

2. Проблема с одноэтапным

Классовый дисбаланс

  • В двухступенчатых детекторах на первом этапе, то есть в сетях предложения регионов, значительно сокращается количество местоположений объектов в сети, а затем также используются некоторые методы выборки для решения проблемы дисбаланса этого класса.

  • В одноступенчатых детекторах мы получаем большое количество местоположений, и большое количество образцов легко классифицируются и обычно не содержат важной информации, в то время как, с другой стороны, есть жесткие примеры, которые содержат важную информацию, но их меньше.

  • Кросс-энтропия (CE) используется как функция потерь. Как вы можете видеть на диаграмме, есть 100 тысяч простых примеров со средней потерей 0,1 и 100 сложных примеров с потерей 2,3. Простые примеры явно будут доминировать над другим классом, поэтому модель будет сосредоточена на простых примерах, а не на сложных, и, следовательно, страдает от точности.

  • 100000 * 0,1 = 10000 и 100 * 2,3 = 230. Потери для простых примеров почти в 43 раза больше, чем для сложных примеров, поэтому существует огромный дисбаланс классов, и поэтому CE не является правильным выбором.

3. Потеря фокуса

  • Функция потерь была изменена для решения этой проблемы и внесла фокальные потери. Фактор модуляции (1 балл) ^ γ добавлен к CE.

  • При pt → 1 потери почти становятся нулевыми, а при pt → 1 потери такие же, как и CE. Таким образом, сосредоточение внимания на жестких образцах - это взвешивание потери легких образцов.

  • В эксперименте эта (указанная выше) потеря используется в качестве окончательной функции потерь, поскольку она приводит к еще лучшим результатам. γ тестируется из [0,5], в то время как 2 дали наилучшие результаты.

  • α фокусируется на дисбалансе классов, а γ - на жестких примерах.

4. RetinaNet

RetinaNet, одноступенчатый детектор, использующий потерю фокуса, так что меньшие потери вносятся «простыми» примерами, а потеря фокусируется на «жестких» примерах.

  • Как показано на рисунке, RetinaNet представляет собой единую унифицированную сеть, состоящую из магистральной сети и двух подсетей для конкретных задач.
  • RetinaNet использует ResNet и Feature Pyramid Network (FPN) в качестве магистральных сетей.

  • Магистраль отвечает за вычисление сверточной карты признаков по всему входному изображению и представляет собой автономную сверточную сеть.
  • Первая подсеть выполняет сверточную классификацию объектов на выходе магистрали; вторая подсеть выполняет регрессию сверточной ограничительной рамки.
  • Сеть была инициализирована с априорной вероятностью нахождения объекта равной 0,1, что позволило осуществить самообучение. Ранее первая попытка заключалась в обучении сети с использованием кросс-энтропийной потери, но она быстро потерпела неудачу, так как сеть расходилась во время обучения.

5. Результаты

Результаты RetinaNet, одноступенчатого детектора, использующего потерю фокуса, были значительными даже на сложном наборе данных COCO, значительно превзошли все одноступенчатые и двухступенчатые детекторы и продемонстрировали самые современные характеристики.

В наборе данных COCO RetinaNet превзошел лучший на сегодняшний день двухступенчатый детектор Faster R-CNN на основе Inception-ResNet-v2-TDM на 2,3 балла и превзошел 40 AP на наборе данных COCO.

Что дальше??

Некоторые светлые умы давно работают над обнаружением объектов. в 2011 и 2012 годах прогресс несколько замедлился и, казалось, достиг точки насыщения.

Но внедрение глубоких сверточных сетей привело к значительному улучшению обнаружения объектов за долгое время, и этот график будет продолжать развиваться в направлении совершенствования. Скоро мы увидим что-то новое и лучшее.

Будьте на связи!!

Источники: -