Благодаря SpatialDropout, каскадным грубым и точным регрессиям тепловой карты превосходит Tompson NIPS’14

В этом рассказе кратко рассматривается статья Эффективная локализация объектов с использованием сверточных сетей, подготовленная Нью-Йоркским университетом. Кажется, что в этой статье нет краткой формы подхода. Поскольку имя первого автора этой статьи на 2015 CVPR - Томпсон, я назвал его просто Tompson CVPR’15 в названии. Вы можете заметить, как это сделано в Нью-Йоркском университете, это также один из проф. Документы ЛеКуна. Буквально в прошлом месяце, в марте 2019 года, ЛеКун получил премию Тьюринга, разделив ее с Йошуа Бенжио и Джеффри Хинтоном, где награда Тьюринга является «Нобелевской премией по вычислительной технике». И это статья с более чем 300 цитированием. (Сик-Хо Цанг @ средний)

Целью оценки позы человека является определение положения суставов человека. Существует множество трудностей, таких как окклюзия суставов, вариации формы тела, одежды, освещения, углов обзора и т. д.

Контур

  1. Грубая регрессия тепловой карты
  2. SpatialDropout
  3. Регрессия точной тепловой карты с использованием каскадной архитектуры
  4. Исследование абляции
  5. Сравнение с современными подходами

1. Грубая регрессия тепловой карты

  • Сеть представляет собой полностью сверточную сеть.
  • Используются входные данные трех различных масштабов и выводятся тепловые карты для каждого сустава.
  • На первом уровне ко входному изображению применяется нормализация локальной контрастности (LCN).
  • Для тестирования доступны 2 набора данных: FLIC и MPII.
  • Для FLIC используется 7-ступенчатая сверточная нейронная сеть (CNN), а для MPII - 11-ступенчатая CNN.
  • Из-за объединения выходное изображение имеет более низкое разрешение, чем входное изображение.

  • Среднеквадратичная ошибка (MSE) используется как функция потерь, где H'j и Hj - это прогнозируемая и достоверная тепловая карта для j -й стык.
  • Во время обучения случайная степень вращения r из [-20, +20], масштабирование s из [0,5, 1,5] и перевернутая версия с p = 0,5 применяются для увеличения данных.

2. SpatialDropout

2.1. Стандартный отсев

  • Две верхние строки пикселей представляют ядра свертки для карт признаков 1 и 2, а нижняя строка представляет выходные объекты предыдущего слоя.
  • Для стандартного исключения, скажем, например, справа от рисунка выше, хотя f2b отброшен, сильно коррелированный f2a все еще остается здесь.
  • Поскольку сеть представляет собой полностью сверточную сеть, отсев неэффективен.

2.2. Пространственный

  • Предлагается новый отсев, SpatialDropout.
  • Предположим, есть карты объектов размером n _ feats × height × width, только n_feats выпадают испытания.
  • Значение выпадения распространяется на всю карту функций.
  • Следовательно, смежные пиксели в выпавшей карте функций либо все 0 (выпали), либо все активны, как показано справа на рисунке выше.
  • Этот дополнительный выпадающий слой добавляется перед первым сверточным слоем 1 × 1, как показано на первом рисунке.

3. Точная регрессия тепловой карты с использованием каскадной архитектуры

3.1. Каскадная архитектура

  • Здесь цель состоит в том, чтобы восстановить пространственную точность, потерянную из-за объединения грубой регрессионной модели тепловой карты.
  • Вместо использования только выходной тепловой карты в качестве входных данных для точной регрессионной модели тепловой карты, как и DeepPose, используются промежуточные карты функций из грубой регрессионной модели тепловой карты. также используется как ввод.
  • Это может помочь уменьшить количество параметров и действовать как регуляризатор для грубой модели тепловой карты.
  • Регрессионная модель точной тепловой карты дает (∆x, ∆y) для суставов. Добавляя с (x, y) в грубую модель, мы можем получить окончательные результаты.

3.2. Модуль обрезки

  • Перед тем, как пройти через регрессионную модель точной тепловой карты, тепловые карты и карты функций должны пройти через модуль кадрирования.
  • Чтобы сохранить постоянный контекстный размер окна, выполняется масштабирование обрезанной области на каждом более высоком уровне разрешения.

3.3. Сиамская сеть

  • Допустим, будет 14 стыков, у нас получится 14 сетей, параметров много.
  • Авторы используют сиамскую сеть, в которой общие веса и предвзятости для всех экземпляров.
  • Это может уменьшить количество параметров и предотвратить перетренированность.
  • Наконец, свертка 1 × 1 без разделения веса используется для вывода тепловой карты с подробным разрешением для каждого сустава. Цель этого последнего слоя - выполнить окончательное обнаружение для каждого сустава. .

3.4. Сеть с точной тепловой картой для одного стыка

  • CNN из 4 путей, показанных выше, представляет собой сеть для одного соединения.
  • При необходимости применяется апскейлинг.
  • И все карты функций из всех 4 путей складываются вместе, а затем проходят свертку 1 × 1 для получения выходных данных.

3.5. Совместное обучение

  • Сначала предварительно обучается грубая модель тепловой карты.
  • Затем фиксируется грубая модель тепловой карты и обучается точная модель тепловой карты, используя следующую функцию потерь:

  • где G’j и Gj - это прогнозируемая тепловая карта для j -го стыка.
  • Наконец, грубая и точная модели обучаются совместно путем минимизации E3 = E1 + λ × E2, где λ = 0,1.

4. Исследование абляции

4.1. Наборы данных

  • Набор данных FLIC состоит из 3 987 обучающих примеров и 1 016 тестовых примеров неподвижных сцен из голливудских фильмов, помеченных метками суставов верхней части тела. Позы преимущественно прямые и обращенные лицом к лицу.
  • Набор данных MPII включает широкий спектр аннотаций позы всего тела в рамках 28 821 тренировочных и 11 701 тестовых примеров.

4.2. Эффект объединения

  • Чем больше используется пул, тем хуже производительность.

  • Измеряется стандартное отклонение σ от наземных стыков.
  • Шум метки (10 изображений): 13 пользователей аннотировали 10 случайных изображений из набора тестов FLIC для лица, левого запястья, левого плеча и левого локтевого сустава. Это можно рассматривать как действия человека.
  • Опять же, чем больше используется пул, тем хуже производительность.

4.3. Только грубая или каскадная модель

  • Только с грубой моделью ошибка предсказания (пиксели) широко распространяется.
  • В каскадной модели ошибка прогноза (в пикселях) более узкая.

4.4. Эффект каскадной модели

  • С меньшим количеством пулов (4 ×) и с каскадной моделью производительность является наилучшей.
  • Каскадный эффект значительный, когда используется 8-кратное и 16-кратное объединение.

4.5. Время тестирования

  • Используется графический процессор Nvidia-K40.
  • Чем меньше пулов (в 4 раза), тем дольше время тестирования.

4.6. Общие функции и SpatialDropout

  • (Слева) Базовый / Стандартный каскад: точная модель принимает только изображение в качестве входных данных, а грубая и точная модели обучаются независимо.
  • (Слева) Общие функции: карты функций в грубой модели также действуют как входные данные для точной модели. Конечно, общие функции дают лучший результат.
  • (Справа) с пространственным выпадением: уровень обнаружения выше.

5. Сравнение с современными подходами

5.1. FLIC

  • Предлагаемая каскадная сеть превосходит все современные подходы, включая Tompson NIPS’14.

5.2. MPII

  • Опять же, предлагаемая каскадная сеть с большим отрывом превосходит все современные подходы.

С помощью каскадной сети для точной настройки прогнозируемого местоположения соединения можно получить более высокую скорость обнаружения.

Ссылка

[2015 CVPR] [Tompson CVPR’15]
Эффективная локализация объектов с использованием сверточных сетей

Мои предыдущие обзоры

Классификация изображений
[LeNet] [AlexNet] [ZFNet] [VGGNet] [Шоссе] [SPPNet] [PReLU-Net] [STN] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Inception-v3] [Inception-v4] [Xception] [ MobileNetV1] [ResNet] [Pre-Activation ResNet] [RiR] [RoR] [Стохастическая глубина] [WRN] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet] [DRN] [DPN] [MSDNet]

Обнаружение объектов
[OverFeat] [R-CNN] [Fast R-CNN] [Faster R-CNN] [MR-CNN & S-CNN ] [ DeepID-Net ] [ КРАФТ ] [ R-FCN ] [ ION ] [ MultiPathNet ] [ NoC ] [ GBD-Net / GBD-v1 & GBD-v2 ] [G-RMI] [TDM] [SSD] [DSSD] [YOLOv1] [YOLOv2 / YOLO9000] [YOLOv3] [FPN] [RetinaNet] [DCN]

Семантическая сегментация
[FCN] [DeconvNet] [DeepLabv1 & DeepLabv2] [CRF-RNN] [SegNet] [ParseNet] [DilatedNet ] [ DRN ] [ RefineNet ] [ PSPNet ] [ DeepLabv3 ]

Сегментация биомедицинских изображений
[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-FCN] [U-Net + ResNet] [ Многоканальный] [V-Net] [3D U-Net]

Сегментация экземпляра
[SDS] [Hypercolumn] [DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [ FCIS ]

Суперразрешение
[SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net] [DRCN] [DRRN] [LapSRN & MS-LapSRN] [SRDenseNet]

Оценка позы человека
[DeepPose] [Tompson NIPS’14]