Одноэтапное обучение детекторов объектов

Я планировал прочитать основные документы по обнаружению объектов (хотя я прочитал большинство из них примерно, я буду читать их достаточно подробно, чтобы написать о них в блоге). Документы связаны с обнаружением объектов на основе глубокого обучения. Не стесняйтесь давать предложения или задавать сомнения, я сделаю все возможное, чтобы помочь всем. Ниже я напишу коды arxiv каждой статьи и дам ссылку на блог (буду обновлять их по мере написания) и их статью ниже. Любой, кто начинает работать в этой области, может пропустить многие из этих статей. Я также напишу приоритет / важность (в соответствии с необходимостью понять тему) статей, как только прочитаю их все.
Я написал блог, принимая во внимание читателей, похожих на меня, и все еще обучающихся. В случае, если я допустил какую-либо ошибку (я постараюсь свести ее к минимуму, тщательно разбираясь в документах из различных источников, включая блоги, коды и видео), которую любой обнаружит, не стесняйтесь выделить ее или добавить комментарий в блог. Я упомянул список документов, которые я буду освещать в конце блога.

Давайте начнем :)

Fast RCNN — это улучшение по сравнению с RCNN и SPPNet. Fast RCNN представляет стратегию обучения для обучения моделей в один этап. Для сравнения, RCNN и SPPNet обучаются в 3 этапа (CNN, SVM и регрессор — все эти этапы обучаются отдельно).

Fast RCNN использует аналогичную сеть предложений регионов для предложения k регионов. Как и в SPPNet, функции CNN рассчитываются только один раз для каждого изображения. Они вводят уровень объединения ROI, который определен в следующем разделе. Классификатор SVM заменен классификатором softmax (полностью связанные слои) и дает оценку вероятности для num_classes+1 (1 дополнительный класс для фона). Аналогичный полносвязный слой с выходным размером 4*(K+1) используется для прогнозирования смещения ограничивающей рамки для каждого класса. VGG используется здесь как глубокая сеть.

Объединение рентабельности инвестиций

Для представления каждого предложения региона с фиксированным размером ROI используется объединение. Форма этого фиксированного размера является гиперпараметром, и мы будем использовать его здесь как H*W. За картой объектов, созданной архитектурой CNN, следует слой объединения ROI. Пусть размер ограничивающей рамки текущего кандидата предложения ROI равен h*w. Эта карта характеристик h*w разделена на сетки приблизительного размера h/H*w/W.

Давайте разберемся на примере: в этом примере наши гиперпараметры H и W выбраны 2*2. Пусть текущее предложение имеет размеры 5*7(внешний черный прямоугольник). Теперь каждая сетка будет иметь размер 5/2*7/2. Поскольку деление не будет целым числом, наши сетки будут разных размеров, как видно на изображении. Как только мы получаем максимальный элемент сетки 2 * 2, берется максимальный элемент сетки, что дает выходную функцию размера 2 * 2.

В этом случае мы получим выходную карту признаков [[0,85,0,84],[0,97,0,96]]. Эта операция применяется независимо для каждого канала в карте объектов (помните, что выходная карта объектов является трехмерной с каналами C, C — это количество каналов, которые мы получаем из нашего последнего слоя Conv, в приведенном выше примере выходные данные будут иметь размер (C * 2*2)).

Теперь у нас есть выходные данные фиксированного размера для каждого предложения региона размером C*H*W. Этот вывод сглаживается, за которым следуют полностью связанные слои. Полученная карта характеристик ROI (см. рисунок 1) используется как классификатором, так и регрессором.

Потеря многозадачности:

Быстрая RCNN состоит из двух родственных слоев, полностью связанных между собой, один из которых выводит вероятности классов, а другой выводит смещения регрессии для каждого класса. Предлагается потеря многозадачности L:

Здесь u и v — наземный класс истинности и цели ограничивающей рамки. L_cls — это потеря классификации (отрицательная логарифмическая вероятность), а L_loc — плавная потеря L1 (описано на изображении ниже). Лямбда — это гиперпараметр, контролирующий баланс между двумя задачами. Здесь u ≥ 1 указывает, что лямбда будет равна 1 только тогда, когда u ≥ 1, и будет равна 0, когда u = 0, что произойдет в случае фонового класса, и для фонового класса нет ограничивающей рамки истинности.

Эта многозадачная потеря помогла повысить точность классификации по сравнению с одной, обученной только с потерей классификации.

Основным вкладом Fast RCNN является одноэтапное обучение. Модель обучается от начала до конца в один этап.

Список статей:

  1. OverFeat: интегрированное распознавание, локализация и обнаружение с использованием сверточных сетей. [Ссылка на блог]
  2. Богатые иерархии функций для точного обнаружения объектов и семантической сегментации (RCNN). [Ссылка на блог]
  3. Объединение пространственных пирамид в глубоких сверточных сетях для визуального распознавания (SPPNet). [Ссылка на блог]
  4. Fast R-CNN ← Вы завершили этот блог.
  5. Быстрее R-CNN: к обнаружению объектов в реальном времени с сетями региональных предложений. [Ссылка на блог]
  6. Вы только посмотрите один раз: унифицированное обнаружение объектов в реальном времени. [Ссылка на блог]
  7. SSD: однокадровый детектор MultiBox. [Ссылка на блог]
  8. R-FCN: обнаружение объектов с помощью полностью сверточных сетей на основе регионов. [Ссылка на блог]
  9. Пирамидные сети для обнаружения объектов. [Ссылка на блог]
  10. DSSD: деконволюционный детектор единичных импульсов. [Ссылка на блог]
  11. Фокусная потеря для обнаружения плотных объектов (сетка Retina). [Ссылка на блог]
  12. YOLOv3: постепенное улучшение. [Ссылка на блог]
  13. СНАЙПЕР: Эффективное многомасштабное обучение. [Ссылка на блог]
  14. Представления с высоким разрешением для маркировки пикселей и областей. [Ссылка на блог]
  15. FCOS: полностью сверточное одноэтапное обнаружение объектов. [Ссылка на блог]
  16. Объекты как точки. [Ссылка на блог]
  17. CornerNet-Lite: эффективное обнаружение объектов на основе ключевых точек. [Ссылка на блог]
  18. CenterNet: триплеты Keypoint для обнаружения объектов. [Ссылка на блог]
  19. Удобная для обучения сеть для обнаружения объектов в реальном времени. [Ссылка на блог]
  20. CBNet: новая композитная магистральная сетевая архитектура для обнаружения объектов. [Ссылка на блог]
  21. EfficientDet: Масштабируемое и эффективное обнаружение объектов. [Ссылка на блог]

Мир…