1-я сеть обнаружения, обученная с нуля, модифицированная с SSD, с использованием плотных блоков из DenseNet, превосходит SSD, YOLOv2, Faster R-CNN, R-FCN, ION
В этой статье рассматривается статья DSOD: изучение детекторов объектов с глубоким контролем с нуля (DSOD), подготовленная Университетом Фудань, Университетом Цинхуа и Intel Labs China. В этом документе:
- Разработан Детектор объектов с глубоким контролем (DSOD), в котором определен набор принципов проектирования, которые помогают обучать с нуля.
- Один из основных выводов - использование глубокого контроля и плотных многоуровневых связей.
Это статья в 2017 ICCV с более чем 300 цитированием. (Сик-Хо Цанг @ средний)
Контур
- DSOD: сетевая архитектура
- Набор принципов для обучения с нуля
- Исследование абляции
- Экспериментальные результаты
- Обсуждения
1. DSOD: сетевая архитектура
- Предлагаемый метод DSOD представляет собой многомасштабную платформу обнаружения без предложений, аналогичную SSD. (Если интересно, посетите SSD.)
- Отсутствие предложения означает отсутствие сети региональных предложений (RPN), такой как в Faster R-CNN или R-FCN.
- Сетевая структура DSOD может быть разделена на две части: магистральную подсеть для извлечения функций и интерфейсную подсеть для прогнозирования по многомасштабным картам ответа.
1.1. Магистральная подсеть
- Магистральная подсеть представляет собой вариант тщательно контролируемой структуры DenseNet, которая состоит из основного блока, четырех плотных блоков, двух переходных слоев и два переходных слоя без объединения.
1.2. Внешняя подсеть
- Внешняя подсеть (или называемые уровни прогнозирования DSOD) объединяет ответы многомасштабного прогнозирования с тщательно продуманной плотной структурой.
- В приведенной выше таблице показаны детали сетевой архитектуры DSOD.
- Как и SSD, плавная потеря L1 используется для локализации, а softmax loss используется для классификации. .
2. Набор принципов для обучения с нуля
2.1. Принцип 1: без предложения
- Замечено, что только метод без предложений может успешно сойтись без предварительно обученных моделей (в то время как сети с RPN не могут).
- Методы, основанные на предложении, хорошо работают с предварительно обученными сетевыми моделями, поскольку инициализация параметров хороша для этих уровней перед объединением RoI, в то время как это неверно для обучения с нуля.
2.2. Принцип 2: Глубокий надзор
- Глубокий контроль с элегантным и неявным решением под названием плотное послойное соединение, представленное в DenseNet.
- Более ранние слои в DenseNet могут получать дополнительное наблюдение от целевой функции через пропускаемые соединения.
- Кроме того, используется переход без уровня пула, то есть без уменьшения окончательного разрешения карты объектов.
- Переход без уровня объединения устраняет это ограничение на количество плотных блоков в DSOD.
2.3. Принцип 3: Блокада ствола
- Основной блок представляет собой стек из трех сверточных слоев 3 × 3, за которыми следует максимальный объединяющий слой 2 × 2, что улучшает производительность обнаружения.
- По сравнению с исходным дизайном в DenseNet (сверточный слой 7 × 7, шаг = 2, за которым следует максимальное объединение 3 × 3, шаг = 2), основной блок может уменьшить потерю информации из необработанных входных изображений.
2.4. Принцип 4: плотная структура прогнозирования
- Как показано на рисунке выше, для входных изображений размером 300 × 300 генерируются шесть масштабов карт характеристик.
- Карты объектов Масштаб-1 имеют самое большое разрешение (38 × 38), чтобы обрабатывать мелкие объекты на изображении.
- Затем простой переходный слой со структурой узких мест (сверточный слой 1 × 1 для уменьшения количества карт признаков плюс сверточный слой 3 × 3) принимается между двумя смежными масштабами карт признаков.
- В простой структуре, как в SSD, каждая последующая шкала напрямую переносится из соседней предыдущей шкалы. Напротив, плотная структура для прогнозирования объединяет многомасштабную информацию для каждой шкалы.
- В DSOD в каждой шкале (кроме шкалы-1) половина карт характеристик извлекается из предыдущей шкалы с серией сверточных слоев, в то время как оставшаяся половина карт функций подвергается непосредственно понижающей дискретизации из смежных пространственных объектов с высоким разрешением. карты.
- т.е. каждая шкала изучает только половину новых карт функций и повторно использует оставшуюся половину предыдущих. Эта плотная структура прогнозирования может дать более точные результаты с меньшим количеством параметров, чем простая структура .
3. Исследование абляции
- Используется DSOD300 (с входами 300 × 300).
- Модели обучаются с помощью комбинированного обучающего набора из VOC 2007 trainval и 2012 trainval («07 + 12») и тестируются на тестовом наборе VOC 2007.
- DS / A - B - k - θ описывает структуру магистральной сети.
- A обозначает количество каналов в 1-м сверточном слое.
- B обозначает количество каналов в каждом узком слое (свертка 1 × 1).
- k - скорость роста плотных блоков.
- θ обозначает коэффициент сжатия в переходных слоях.
3.1. Конфигурации в плотных блоках
- Коэффициент сжатия в переходных слоях: коэффициент сжатия θ = 1 означает, что в переходном слое нет уменьшения карты объектов, а θ = 0,5 означает, что половина карт объектов уменьшена. Результаты показывают, что θ = 1 дает значение MAP на 2,9% выше, чем θ = 0,5.
- # Каналы в слоях узких мест: Более широкие слои узких мест (с большим количеством каналов карт ответов) значительно улучшают производительность (4,1% MAP).
- # Каналы в первом сверточном слое: Большое количество каналов на первых сверточных слоях является полезным, что дает улучшение MAP на 1,1%.
- Скорость роста. Высокая скорость роста k оказывается намного лучше. Улучшение MAP на 4,8% наблюдается при увеличении k с 16 до 48 с 4k узкими местами.
3.2. Эффективность принципов дизайна
- Структура без предложений: для двухэтапных Faster R-CNN и R-FCN процесс обучения не удалось сойтись для всех сетевых структур, которые были предприняты (VGGNet, ResNet , DenseNet ).
- На SSD обучение сошлось успешно, но дает гораздо худшие результаты (69,6% для VGGNet).
- (Результаты показаны в следующей таблице в следующем разделе.)
- Глубокий контроль: DSOD300 достигает 77,7% MAP. Это также намного лучше, чем у SSD 300 (75,8%).
- (Результаты показаны в следующей таблице в следующем разделе.)
- Переход без уровня пула: сетевая структура с переходом без уровня пула дает прирост производительности 1,7%.
- Блок штока: блок штока улучшает производительность с 74,5% до 77,3%.
- Плотная структура прогнозирования: DSOD с плотной структурой интерфейса работает немного ниже, чем обычная структура (17,4 кадра в секунду против 20,6 кадра в секунду) на графическом процессоре Titan X. Однако плотная структура улучшает MAP с 77,3% до 77,7%, а снижает параметры с 18,2M до 14,8M.
- Что делать, если предварительное обучение в ImageNet?: Одна облегченная магистральная сеть DS / 64–12–16–1 на ImageNet, которая обеспечивает точность 66,8% наивысшей 1 и 87,8% точности 5 на валидации -set. После точной настройки было получено 70,3% MAP на испытательном наборе VOC 2007.
- Соответствующее решение обучения с нуля »обеспечивает точность 70,7%, что даже немного лучше.
3.3. Анализ времени выполнения
- При вводе 300 × 300 полный DSOD может обрабатывать изображение за 48,6 мс (20,6 кадра в секунду) на одном графическом процессоре Titan X со структурой прогнозирования plain и 57,5 мс (17,4 кадра в секунду) со структурой прогнозирования плотная.
- Для сравнения, R-FCN работает со скоростью 90 мс (11 кадров в секунду) для ResNet -50 и 110 мс (9 кадров в секунду) для ResNet - 101.
- SSD 300 * работает со скоростью 82,6 мс (12,1 кадра в секунду) для ResNet -101 и 21,7 мс (46 кадров в секунду) для VGGNet.
- Кроме того, DSOD использует около 1/2 параметров для SSD 300 с VGGNet, 1/4 для SSD 300 с ResNet -101, 1/4 для R-FCN с ResNet - 101 и 1/10 на Faster R-CNN с VGGNet.
- Облегченная версия DSOD (10,4 млн параметров, без какой-либо оптимизации скорости) может работать со скоростью 25,8 кадра в секунду с падением только 1% MAP.
- (Результаты показаны в следующей таблице в следующем разделе.)
4. Экспериментальные результаты.
4.1. ПАСКАЛЬНЫЙ VOC 2007
- Модели обучаются на основе объединения VOC 2007 trainval и VOC 2012 trainval («07 + 12»).
- Размер пакета 128 используется путем накопления градиентов за две итерации обучения. Иначе памяти не хватит.
- DSOD300 с простым подключением дает 77,3%, что немного лучше, чем SSD 300 * (77,2%), опережает YOLOv2.
- DSOD300 с плотной структурой прогнозирования улучшает результат до 77,7%.
- После добавления COCO в качестве данных обучения производительность повышается до 81,7%.
4.2. ПАСКАЛЬНЫЙ VOC2012
- VOC 2012 trainval и VOC 2007 trainval + test используются для обучения, а затем тестируются на тестовом наборе VOC 2012.
- DSOD300 достигает 76,3% mAP, что неизменно лучше, чем SSD 300 * (75,8%), YOLOv2 (73,4%), Faster R- CNN (73,8%),
- При использовании COCO для обучения DSOD300 (79,3%) превосходит ION (76,4%) и R-FCN multi-sc (77,6%).
4.3. MS COCO
- Набор trainval (набор поездов + набор проверки) используется для обучения.
- DSOD300 достигает 29,3% / 47,3% (общее mAP / mAP @ 0,5) на тестовом наборе, что с большим отрывом превосходит базовый SSD 300 *.
- Результат сопоставим с одноуровневой R-FCN и близок к R-FCN multi-sc, который использует ResNet -101 в качестве предварительно обученной модели.
- Интересно, что результат DSOD с 0,5 IoU ниже, чем R-FCN, но результат DSOD [0,5: 0,95] лучше или сопоставим.
- Это указывает на то, что предсказанные местоположения более точны, чем R-FCN при больших настройках перекрытия. Разумно, что точность обнаружения мелких объектов немного ниже, чем у R-FCN, поскольку размер нашего входного изображения (300 × 300) намного меньше, чем у R-FCN (600 × 1000 ).
5. Обсуждения
- Основываясь на приведенных выше результатах, проводятся некоторые обсуждения.
5.1. Лучшая структура модели по сравнению с большим количеством обучающих данных
- Лучшая структура модели может обеспечить аналогичную или лучшую производительность по сравнению со сложными моделями, обученными на больших данных.
В частности, DSOD обучается только с 16 551 изображением на VOC 2007, но обеспечивает конкурентоспособную или даже лучшую производительность, чем модели, обученные с использованием 1,2 миллиона + 16 551 изображения.
5.2. Почему обучение с нуля?
Во-первых, могут быть большие различия в предметной области от предварительно обученной модели до целевой.
Во-вторых, тонкая настройка модели ограничивает пространство конструкции для сетей обнаружения объектов.
5.3. Компактность модели против производительности
- Благодаря плотному блоку с эффективными параметрами модель намного меньше, чем у большинства конкурирующих методов.
Например, самая маленькая плотная модель (DS / 64–64–16–1, с плотными уровнями прогнозирования) достигает 73,6% mAP с только 5,9 млн параметров , что показывает большой потенциал для приложений на бюджетных устройствах.
Ссылка
[2017 ICCV] [DSOD]
DSOD: изучение детекторов объектов с глубоким контролем с нуля
Обнаружение объекта
2014: [OverFeat] [R-CNN]
2015: [Fast R-CNN] [Faster R-CNN] [MR-CNN & S-CNN] [DeepID-Net]
2016: [CRAFT] [R-FCN] [ION] [ MultiPathNet ] [ Hikvision ] [ GBD-Net / GBD-v1 & GBD-v2 ] [ SSD ] [ YOLOv1 ]
2017: [ NoC ] [G-RMI] [TDM] [DSSD] [YOLOv2 / YOLO9000] [FPN] [RetinaNet] [DCN / DCNv1] [Light-Head R-CNN ] [ DSOD ]
2018: [ YOLOv3 ] [ Каскад R-CNN ] [ MegDet ] [ StairNet ]
2019: [DCNv2] [Переосмысление предварительного обучения ImageNet]