Обзор - DSOD: изучение детекторов объектов с глубоким контролем с нуля (обнаружение объектов)

1-я сеть обнаружения, обученная с нуля, модифицированная с SSD, с использованием плотных блоков из DenseNet, превосходит SSD, YOLOv2, Faster R-CNN, R-FCN, ION

В этой статье рассматривается статья DSOD: изучение детекторов объектов с глубоким контролем с нуля (DSOD), подготовленная Университетом Фудань, Университетом Цинхуа и Intel Labs China. В этом документе:

Разработан Детектор объектов с глубоким контролем (DSOD), в котором определен набор принципов проектирования, которые помогают обучать с нуля.
Один из основных выводов - использование глубокого контроля и плотных многоуровневых связей.

Это статья в 2017 ICCV с более чем 300 цитированием. (Сик-Хо Цанг @ средний)

Контур

DSOD: сетевая архитектура
Набор принципов для обучения с нуля
Исследование абляции
Экспериментальные результаты
Обсуждения

1. DSOD: сетевая архитектура

Предлагаемый метод DSOD представляет собой многомасштабную платформу обнаружения без предложений, аналогичную SSD. (Если интересно, посетите SSD.)
Отсутствие предложения означает отсутствие сети региональных предложений (RPN), такой как в Faster R-CNN или R-FCN.
Сетевая структура DSOD может быть разделена на две части: магистральную подсеть для извлечения функций и интерфейсную подсеть для прогнозирования по многомасштабным картам ответа.

1.1. Магистральная подсеть

Магистральная подсеть представляет собой вариант тщательно контролируемой структуры DenseNet, которая состоит из основного блока, четырех плотных блоков, двух переходных слоев и два переходных слоя без объединения.

1.2. Внешняя подсеть

Внешняя подсеть (или называемые уровни прогнозирования DSOD) объединяет ответы многомасштабного прогнозирования с тщательно продуманной плотной структурой.

В приведенной выше таблице показаны детали сетевой архитектуры DSOD.
Как и SSD, плавная потеря L1 используется для локализации, а softmax loss используется для классификации. .

2. Набор принципов для обучения с нуля

2.1. Принцип 1: без предложения

Замечено, что только метод без предложений может успешно сойтись без предварительно обученных моделей (в то время как сети с RPN не могут).
Методы, основанные на предложении, хорошо работают с предварительно обученными сетевыми моделями, поскольку инициализация параметров хороша для этих уровней перед объединением RoI, в то время как это неверно для обучения с нуля.

2.2. Принцип 2: Глубокий надзор

Глубокий контроль с элегантным и неявным решением под названием плотное послойное соединение, представленное в DenseNet.
Более ранние слои в DenseNet могут получать дополнительное наблюдение от целевой функции через пропускаемые соединения.
Кроме того, используется переход без уровня пула, то есть без уменьшения окончательного разрешения карты объектов.
Переход без уровня объединения устраняет это ограничение на количество плотных блоков в DSOD.

2.3. Принцип 3: Блокада ствола

Основной блок представляет собой стек из трех сверточных слоев 3 × 3, за которыми следует максимальный объединяющий слой 2 × 2, что улучшает производительность обнаружения.
По сравнению с исходным дизайном в DenseNet (сверточный слой 7 × 7, шаг = 2, за которым следует максимальное объединение 3 × 3, шаг = 2), основной блок может уменьшить потерю информации из необработанных входных изображений.

2.4. Принцип 4: плотная структура прогнозирования

Как показано на рисунке выше, для входных изображений размером 300 × 300 генерируются шесть масштабов карт характеристик.
Карты объектов Масштаб-1 имеют самое большое разрешение (38 × 38), чтобы обрабатывать мелкие объекты на изображении.
Затем простой переходный слой со структурой узких мест (сверточный слой 1 × 1 для уменьшения количества карт признаков плюс сверточный слой 3 × 3) принимается между двумя смежными масштабами карт признаков.
В простой структуре, как в SSD, каждая последующая шкала напрямую переносится из соседней предыдущей шкалы. Напротив, плотная структура для прогнозирования объединяет многомасштабную информацию для каждой шкалы.
В DSOD в каждой шкале (кроме шкалы-1) половина карт характеристик извлекается из предыдущей шкалы с серией сверточных слоев, в то время как оставшаяся половина карт функций подвергается непосредственно понижающей дискретизации из смежных пространственных объектов с высоким разрешением. карты.
т.е. каждая шкала изучает только половину новых карт функций и повторно использует оставшуюся половину предыдущих. Эта плотная структура прогнозирования может дать более точные результаты с меньшим количеством параметров, чем простая структура .

3. Исследование абляции

Используется DSOD300 (с входами 300 × 300).
Модели обучаются с помощью комбинированного обучающего набора из VOC 2007 trainval и 2012 trainval («07 + 12») и тестируются на тестовом наборе VOC 2007.
DS / A - B - k - θ описывает структуру магистральной сети.
A обозначает количество каналов в 1-м сверточном слое.
B обозначает количество каналов в каждом узком слое (свертка 1 × 1).
k - скорость роста плотных блоков.
θ обозначает коэффициент сжатия в переходных слоях.

3.1. Конфигурации в плотных блоках

Коэффициент сжатия в переходных слоях: коэффициент сжатия θ = 1 означает, что в переходном слое нет уменьшения карты объектов, а θ = 0,5 означает, что половина карт объектов уменьшена. Результаты показывают, что θ = 1 дает значение MAP на 2,9% выше, чем θ = 0,5.
# Каналы в слоях узких мест: Более широкие слои узких мест (с большим количеством каналов карт ответов) значительно улучшают производительность (4,1% MAP).
# Каналы в первом сверточном слое: Большое количество каналов на первых сверточных слоях является полезным, что дает улучшение MAP на 1,1%.
Скорость роста. Высокая скорость роста k оказывается намного лучше. Улучшение MAP на 4,8% наблюдается при увеличении k с 16 до 48 с 4k узкими местами.

3.2. Эффективность принципов дизайна

Структура без предложений: для двухэтапных Faster R-CNN и R-FCN процесс обучения не удалось сойтись для всех сетевых структур, которые были предприняты (VGGNet, ResNet , DenseNet ).
На SSD обучение сошлось успешно, но дает гораздо худшие результаты (69,6% для VGGNet).
(Результаты показаны в следующей таблице в следующем разделе.)
Глубокий контроль: DSOD300 достигает 77,7% MAP. Это также намного лучше, чем у SSD 300 (75,8%).
(Результаты показаны в следующей таблице в следующем разделе.)
Переход без уровня пула: сетевая структура с переходом без уровня пула дает прирост производительности 1,7%.
Блок штока: блок штока улучшает производительность с 74,5% до 77,3%.
Плотная структура прогнозирования: DSOD с плотной структурой интерфейса работает немного ниже, чем обычная структура (17,4 кадра в секунду против 20,6 кадра в секунду) на графическом процессоре Titan X. Однако плотная структура улучшает MAP с 77,3% до 77,7%, а снижает параметры с 18,2M до 14,8M.
Что делать, если предварительное обучение в ImageNet?: Одна облегченная магистральная сеть DS / 64–12–16–1 на ImageNet, которая обеспечивает точность 66,8% наивысшей 1 и 87,8% точности 5 на валидации -set. После точной настройки было получено 70,3% MAP на испытательном наборе VOC 2007.
Соответствующее решение обучения с нуля »обеспечивает точность 70,7%, что даже немного лучше.

3.3. Анализ времени выполнения

При вводе 300 × 300 полный DSOD может обрабатывать изображение за 48,6 мс (20,6 кадра в секунду) на одном графическом процессоре Titan X со структурой прогнозирования plain и 57,5 мс (17,4 кадра в секунду) со структурой прогнозирования плотная.
Для сравнения, R-FCN работает со скоростью 90 мс (11 кадров в секунду) для ResNet -50 и 110 мс (9 кадров в секунду) для ResNet - 101.
SSD 300 * работает со скоростью 82,6 мс (12,1 кадра в секунду) для ResNet -101 и 21,7 мс (46 кадров в секунду) для VGGNet.
Кроме того, DSOD использует около 1/2 параметров для SSD 300 с VGGNet, 1/4 для SSD 300 с ResNet -101, 1/4 для R-FCN с ResNet - 101 и 1/10 на Faster R-CNN с VGGNet.
Облегченная версия DSOD (10,4 млн параметров, без какой-либо оптимизации скорости) может работать со скоростью 25,8 кадра в секунду с падением только 1% MAP.
(Результаты показаны в следующей таблице в следующем разделе.)

4. Экспериментальные результаты.

4.1. ПАСКАЛЬНЫЙ VOC 2007

Модели обучаются на основе объединения VOC 2007 trainval и VOC 2012 trainval («07 + 12»).
Размер пакета 128 используется путем накопления градиентов за две итерации обучения. Иначе памяти не хватит.
DSOD300 с простым подключением дает 77,3%, что немного лучше, чем SSD 300 * (77,2%), опережает YOLOv2.
DSOD300 с плотной структурой прогнозирования улучшает результат до 77,7%.
После добавления COCO в качестве данных обучения производительность повышается до 81,7%.

4.2. ПАСКАЛЬНЫЙ VOC2012

VOC 2012 trainval и VOC 2007 trainval + test используются для обучения, а затем тестируются на тестовом наборе VOC 2012.
DSOD300 достигает 76,3% mAP, что неизменно лучше, чем SSD 300 * (75,8%), YOLOv2 (73,4%), Faster R- CNN (73,8%),
При использовании COCO для обучения DSOD300 (79,3%) превосходит ION (76,4%) и R-FCN multi-sc (77,6%).

4.3. MS COCO

Набор trainval (набор поездов + набор проверки) используется для обучения.
DSOD300 достигает 29,3% / 47,3% (общее mAP / mAP @ 0,5) на тестовом наборе, что с большим отрывом превосходит базовый SSD 300 *.
Результат сопоставим с одноуровневой R-FCN и близок к R-FCN multi-sc, который использует ResNet -101 в качестве предварительно обученной модели.
Интересно, что результат DSOD с 0,5 IoU ниже, чем R-FCN, но результат DSOD [0,5: 0,95] лучше или сопоставим.
Это указывает на то, что предсказанные местоположения более точны, чем R-FCN при больших настройках перекрытия. Разумно, что точность обнаружения мелких объектов немного ниже, чем у R-FCN, поскольку размер нашего входного изображения (300 × 300) намного меньше, чем у R-FCN (600 × 1000 ).

5. Обсуждения

Основываясь на приведенных выше результатах, проводятся некоторые обсуждения.

5.1. Лучшая структура модели по сравнению с большим количеством обучающих данных

Лучшая структура модели может обеспечить аналогичную или лучшую производительность по сравнению со сложными моделями, обученными на больших данных.

В частности, DSOD обучается только с 16 551 изображением на VOC 2007, но обеспечивает конкурентоспособную или даже лучшую производительность, чем модели, обученные с использованием 1,2 миллиона + 16 551 изображения.

5.2. Почему обучение с нуля?

Во-первых, могут быть большие различия в предметной области от предварительно обученной модели до целевой.

Во-вторых, тонкая настройка модели ограничивает пространство конструкции для сетей обнаружения объектов.

5.3. Компактность модели против производительности

Благодаря плотному блоку с эффективными параметрами модель намного меньше, чем у большинства конкурирующих методов.

Например, самая маленькая плотная модель (DS / 64–64–16–1, с плотными уровнями прогнозирования) достигает 73,6% mAP с только 5,9 млн параметров , что показывает большой потенциал для приложений на бюджетных устройствах.

Ссылка

[2017 ICCV] [DSOD]
DSOD: изучение детекторов объектов с глубоким контролем с нуля

Обнаружение объекта

2014: [OverFeat] [R-CNN]
2015: [Fast R-CNN] [Faster R-CNN] [MR-CNN & S-CNN] [DeepID-Net]
2016: [CRAFT] [R-FCN] [ION] [ MultiPathNet ] [ Hikvision ] [ GBD-Net / GBD-v1 & GBD-v2 ] [ SSD ] [ YOLOv1 ]
2017: [ NoC ] [G-RMI] [TDM] [DSSD] [YOLOv2 / YOLO9000] [FPN] [RetinaNet] [DCN / DCNv1] [Light-Head R-CNN ] [ DSOD ]
2018: [ YOLOv3 ] [ Каскад R-CNN ] [ MegDet ] [ StairNet ]
2019: [DCNv2] [Переосмысление предварительного обучения ImageNet]