1-я сеть обнаружения, обученная с нуля, модифицированная с SSD, с использованием плотных блоков из DenseNet, превосходит SSD, YOLOv2, Faster R-CNN, R-FCN, ION

В этой статье рассматривается статья DSOD: изучение детекторов объектов с глубоким контролем с нуля (DSOD), подготовленная Университетом Фудань, Университетом Цинхуа и Intel Labs China. В этом документе:

  • Разработан Детектор объектов с глубоким контролем (DSOD), в котором определен набор принципов проектирования, которые помогают обучать с нуля.
  • Один из основных выводов - использование глубокого контроля и плотных многоуровневых связей.

Это статья в 2017 ICCV с более чем 300 цитированием. (Сик-Хо Цанг @ средний)

Контур

  1. DSOD: сетевая архитектура
  2. Набор принципов для обучения с нуля
  3. Исследование абляции
  4. Экспериментальные результаты
  5. Обсуждения

1. DSOD: сетевая архитектура

  • Предлагаемый метод DSOD представляет собой многомасштабную платформу обнаружения без предложений, аналогичную SSD. (Если интересно, посетите SSD.)
  • Отсутствие предложения означает отсутствие сети региональных предложений (RPN), такой как в Faster R-CNN или R-FCN.
  • Сетевая структура DSOD может быть разделена на две части: магистральную подсеть для извлечения функций и интерфейсную подсеть для прогнозирования по многомасштабным картам ответа.

1.1. Магистральная подсеть

  • Магистральная подсеть представляет собой вариант тщательно контролируемой структуры DenseNet, которая состоит из основного блока, четырех плотных блоков, двух переходных слоев и два переходных слоя без объединения.

1.2. Внешняя подсеть

  • Внешняя подсеть (или называемые уровни прогнозирования DSOD) объединяет ответы многомасштабного прогнозирования с тщательно продуманной плотной структурой.

  • В приведенной выше таблице показаны детали сетевой архитектуры DSOD.
  • Как и SSD, плавная потеря L1 используется для локализации, а softmax loss используется для классификации. .

2. Набор принципов для обучения с нуля

2.1. Принцип 1: без предложения

  • Замечено, что только метод без предложений может успешно сойтись без предварительно обученных моделей (в то время как сети с RPN не могут).
  • Методы, основанные на предложении, хорошо работают с предварительно обученными сетевыми моделями, поскольку инициализация параметров хороша для этих уровней перед объединением RoI, в то время как это неверно для обучения с нуля.

2.2. Принцип 2: Глубокий надзор

  • Глубокий контроль с элегантным и неявным решением под названием плотное послойное соединение, представленное в DenseNet.
  • Более ранние слои в DenseNet могут получать дополнительное наблюдение от целевой функции через пропускаемые соединения.
  • Кроме того, используется переход без уровня пула, то есть без уменьшения окончательного разрешения карты объектов.
  • Переход без уровня объединения устраняет это ограничение на количество плотных блоков в DSOD.

2.3. Принцип 3: Блокада ствола

  • Основной блок представляет собой стек из трех сверточных слоев 3 × 3, за которыми следует максимальный объединяющий слой 2 × 2, что улучшает производительность обнаружения.
  • По сравнению с исходным дизайном в DenseNet (сверточный слой 7 × 7, шаг = 2, за которым следует максимальное объединение 3 × 3, шаг = 2), основной блок может уменьшить потерю информации из необработанных входных изображений.

2.4. Принцип 4: плотная структура прогнозирования

  • Как показано на рисунке выше, для входных изображений размером 300 × 300 генерируются шесть масштабов карт характеристик.
  • Карты объектов Масштаб-1 имеют самое большое разрешение (38 × 38), чтобы обрабатывать мелкие объекты на изображении.
  • Затем простой переходный слой со структурой узких мест (сверточный слой 1 × 1 для уменьшения количества карт признаков плюс сверточный слой 3 × 3) принимается между двумя смежными масштабами карт признаков.
  • В простой структуре, как в SSD, каждая последующая шкала напрямую переносится из соседней предыдущей шкалы. Напротив, плотная структура для прогнозирования объединяет многомасштабную информацию для каждой шкалы.
  • В DSOD в каждой шкале (кроме шкалы-1) половина карт характеристик извлекается из предыдущей шкалы с серией сверточных слоев, в то время как оставшаяся половина карт функций подвергается непосредственно понижающей дискретизации из смежных пространственных объектов с высоким разрешением. карты.
  • т.е. каждая шкала изучает только половину новых карт функций и повторно использует оставшуюся половину предыдущих. Эта плотная структура прогнозирования может дать более точные результаты с меньшим количеством параметров, чем простая структура .

3. Исследование абляции

  • Используется DSOD300 (с входами 300 × 300).
  • Модели обучаются с помощью комбинированного обучающего набора из VOC 2007 trainval и 2012 trainval («07 + 12») и тестируются на тестовом наборе VOC 2007.
  • DS / A - B - k - θ описывает структуру магистральной сети.
  • A обозначает количество каналов в 1-м сверточном слое.
  • B обозначает количество каналов в каждом узком слое (свертка 1 × 1).
  • k - скорость роста плотных блоков.
  • θ обозначает коэффициент сжатия в переходных слоях.

3.1. Конфигурации в плотных блоках

  • Коэффициент сжатия в переходных слоях: коэффициент сжатия θ = 1 означает, что в переходном слое нет уменьшения карты объектов, а θ = 0,5 означает, что половина карт объектов уменьшена. Результаты показывают, что θ = 1 дает значение MAP на 2,9% выше, чем θ = 0,5.
  • # Каналы в слоях узких мест: Более широкие слои узких мест (с большим количеством каналов карт ответов) значительно улучшают производительность (4,1% MAP).
  • # Каналы в первом сверточном слое: Большое количество каналов на первых сверточных слоях является полезным, что дает улучшение MAP на 1,1%.
  • Скорость роста. Высокая скорость роста k оказывается намного лучше. Улучшение MAP на 4,8% наблюдается при увеличении k с 16 до 48 с 4k узкими местами.

3.2. Эффективность принципов дизайна

  • Структура без предложений: для двухэтапных Faster R-CNN и R-FCN процесс обучения не удалось сойтись для всех сетевых структур, которые были предприняты (VGGNet, ResNet , DenseNet ).
  • На SSD обучение сошлось успешно, но дает гораздо худшие результаты (69,6% для VGGNet).
  • (Результаты показаны в следующей таблице в следующем разделе.)
  • Глубокий контроль: DSOD300 достигает 77,7% MAP. Это также намного лучше, чем у SSD 300 (75,8%).
  • (Результаты показаны в следующей таблице в следующем разделе.)
  • Переход без уровня пула: сетевая структура с переходом без уровня пула дает прирост производительности 1,7%.
  • Блок штока: блок штока улучшает производительность с 74,5% до 77,3%.
  • Плотная структура прогнозирования: DSOD с плотной структурой интерфейса работает немного ниже, чем обычная структура (17,4 кадра в секунду против 20,6 кадра в секунду) на графическом процессоре Titan X. Однако плотная структура улучшает MAP с 77,3% до 77,7%, а снижает параметры с 18,2M до 14,8M.
  • Что делать, если предварительное обучение в ImageNet?: Одна облегченная магистральная сеть DS / 64–12–16–1 на ImageNet, которая обеспечивает точность 66,8% наивысшей 1 и 87,8% точности 5 на валидации -set. После точной настройки было получено 70,3% MAP на испытательном наборе VOC 2007.
  • Соответствующее решение обучения с нуля »обеспечивает точность 70,7%, что даже немного лучше.

3.3. Анализ времени выполнения

  • При вводе 300 × 300 полный DSOD может обрабатывать изображение за 48,6 мс (20,6 кадра в секунду) на одном графическом процессоре Titan X со структурой прогнозирования plain и 57,5 мс (17,4 кадра в секунду) со структурой прогнозирования плотная.
  • Для сравнения, R-FCN работает со скоростью 90 мс (11 кадров в секунду) для ResNet -50 и 110 мс (9 кадров в секунду) для ResNet - 101.
  • SSD 300 * работает со скоростью 82,6 мс (12,1 кадра в секунду) для ResNet -101 и 21,7 мс (46 кадров в секунду) для VGGNet.
  • Кроме того, DSOD использует около 1/2 параметров для SSD 300 с VGGNet, 1/4 для SSD 300 с ResNet -101, 1/4 для R-FCN с ResNet - 101 и 1/10 на Faster R-CNN с VGGNet.
  • Облегченная версия DSOD (10,4 млн параметров, без какой-либо оптимизации скорости) может работать со скоростью 25,8 кадра в секунду с падением только 1% MAP.
  • (Результаты показаны в следующей таблице в следующем разделе.)

4. Экспериментальные результаты.

4.1. ПАСКАЛЬНЫЙ VOC 2007

  • Модели обучаются на основе объединения VOC 2007 trainval и VOC 2012 trainval («07 + 12»).
  • Размер пакета 128 используется путем накопления градиентов за две итерации обучения. Иначе памяти не хватит.
  • DSOD300 с простым подключением дает 77,3%, что немного лучше, чем SSD 300 * (77,2%), опережает YOLOv2.
  • DSOD300 с плотной структурой прогнозирования улучшает результат до 77,7%.
  • После добавления COCO в качестве данных обучения производительность повышается до 81,7%.

4.2. ПАСКАЛЬНЫЙ VOC2012

  • VOC 2012 trainval и VOC 2007 trainval + test используются для обучения, а затем тестируются на тестовом наборе VOC 2012.
  • DSOD300 достигает 76,3% mAP, что неизменно лучше, чем SSD 300 * (75,8%), YOLOv2 (73,4%), Faster R- CNN (73,8%),
  • При использовании COCO для обучения DSOD300 (79,3%) превосходит ION (76,4%) и R-FCN multi-sc (77,6%).

4.3. MS COCO

  • Набор trainval (набор поездов + набор проверки) используется для обучения.
  • DSOD300 достигает 29,3% / 47,3% (общее mAP / mAP @ 0,5) на тестовом наборе, что с большим отрывом превосходит базовый SSD 300 *.
  • Результат сопоставим с одноуровневой R-FCN и близок к R-FCN multi-sc, который использует ResNet -101 в качестве предварительно обученной модели.
  • Интересно, что результат DSOD с 0,5 IoU ниже, чем R-FCN, но результат DSOD [0,5: 0,95] лучше или сопоставим.
  • Это указывает на то, что предсказанные местоположения более точны, чем R-FCN при больших настройках перекрытия. Разумно, что точность обнаружения мелких объектов немного ниже, чем у R-FCN, поскольку размер нашего входного изображения (300 × 300) намного меньше, чем у R-FCN (600 × 1000 ).

5. Обсуждения

  • Основываясь на приведенных выше результатах, проводятся некоторые обсуждения.

5.1. Лучшая структура модели по сравнению с большим количеством обучающих данных

  • Лучшая структура модели может обеспечить аналогичную или лучшую производительность по сравнению со сложными моделями, обученными на больших данных.

В частности, DSOD обучается только с 16 551 изображением на VOC 2007, но обеспечивает конкурентоспособную или даже лучшую производительность, чем модели, обученные с использованием 1,2 миллиона + 16 551 изображения.

5.2. Почему обучение с нуля?

Во-первых, могут быть большие различия в предметной области от предварительно обученной модели до целевой.

Во-вторых, тонкая настройка модели ограничивает пространство конструкции для сетей обнаружения объектов.

5.3. Компактность модели против производительности

  • Благодаря плотному блоку с эффективными параметрами модель намного меньше, чем у большинства конкурирующих методов.

Например, самая маленькая плотная модель (DS / 64–64–16–1, с плотными уровнями прогнозирования) достигает 73,6% mAP с только 5,9 млн параметров , что показывает большой потенциал для приложений на бюджетных устройствах.

Ссылка

[2017 ICCV] [DSOD]
DSOD: изучение детекторов объектов с глубоким контролем с нуля

Обнаружение объекта

2014: [OverFeat] [R-CNN]
2015: [Fast R-CNN] [Faster R-CNN] [MR-CNN & S-CNN] [DeepID-Net]
2016: [CRAFT] [R-FCN] [ION] [ MultiPathNet ] [ Hikvision ] [ GBD-Net / GBD-v1 & GBD-v2 ] [ SSD ] [ YOLOv1 ]
2017: [ NoC ] [G-RMI] [TDM] [DSSD] [YOLOv2 / YOLO9000] [FPN] [RetinaNet] [DCN / DCNv1] [Light-Head R-CNN ] [ DSOD ]
2018: [ YOLOv3 ] [ Каскад R-CNN ] [ MegDet ] [ StairNet ]
2019: [DCNv2] [Переосмысление предварительного обучения ImageNet]

Другие мои предыдущие чтения статей