Обзор: Tompson CVPR’15 - Пространственное исключение (оценка позы человека)

Благодаря SpatialDropout, каскадным грубым и точным регрессиям тепловой карты превосходит Tompson NIPS’14

В этом рассказе кратко рассматривается статья Эффективная локализация объектов с использованием сверточных сетей, подготовленная Нью-Йоркским университетом. Кажется, что в этой статье нет краткой формы подхода. Поскольку имя первого автора этой статьи на 2015 CVPR - Томпсон, я назвал его просто Tompson CVPR’15 в названии. Вы можете заметить, как это сделано в Нью-Йоркском университете, это также один из проф. Документы ЛеКуна. Буквально в прошлом месяце, в марте 2019 года, ЛеКун получил премию Тьюринга, разделив ее с Йошуа Бенжио и Джеффри Хинтоном, где награда Тьюринга является «Нобелевской премией по вычислительной технике». И это статья с более чем 300 цитированием. (Сик-Хо Цанг @ средний)

Целью оценки позы человека является определение положения суставов человека. Существует множество трудностей, таких как окклюзия суставов, вариации формы тела, одежды, освещения, углов обзора и т. д.

Контур

Грубая регрессия тепловой карты
SpatialDropout
Регрессия точной тепловой карты с использованием каскадной архитектуры
Исследование абляции
Сравнение с современными подходами

1. Грубая регрессия тепловой карты

Сеть представляет собой полностью сверточную сеть.
Используются входные данные трех различных масштабов и выводятся тепловые карты для каждого сустава.
На первом уровне ко входному изображению применяется нормализация локальной контрастности (LCN).
Для тестирования доступны 2 набора данных: FLIC и MPII.
Для FLIC используется 7-ступенчатая сверточная нейронная сеть (CNN), а для MPII - 11-ступенчатая CNN.
Из-за объединения выходное изображение имеет более низкое разрешение, чем входное изображение.

Среднеквадратичная ошибка (MSE) используется как функция потерь, где H'j и Hj - это прогнозируемая и достоверная тепловая карта для j -й стык.
Во время обучения случайная степень вращения r из [-20, +20], масштабирование s из [0,5, 1,5] и перевернутая версия с p = 0,5 применяются для увеличения данных.

2. SpatialDropout

2.1. Стандартный отсев

Две верхние строки пикселей представляют ядра свертки для карт признаков 1 и 2, а нижняя строка представляет выходные объекты предыдущего слоя.
Для стандартного исключения, скажем, например, справа от рисунка выше, хотя f2b отброшен, сильно коррелированный f2a все еще остается здесь.
Поскольку сеть представляет собой полностью сверточную сеть, отсев неэффективен.

2.2. Пространственный

Предлагается новый отсев, SpatialDropout.
Предположим, есть карты объектов размером n _ feats × height × width, только n_feats выпадают испытания.
Значение выпадения распространяется на всю карту функций.
Следовательно, смежные пиксели в выпавшей карте функций либо все 0 (выпали), либо все активны, как показано справа на рисунке выше.
Этот дополнительный выпадающий слой добавляется перед первым сверточным слоем 1 × 1, как показано на первом рисунке.

3. Точная регрессия тепловой карты с использованием каскадной архитектуры

3.1. Каскадная архитектура

Здесь цель состоит в том, чтобы восстановить пространственную точность, потерянную из-за объединения грубой регрессионной модели тепловой карты.
Вместо использования только выходной тепловой карты в качестве входных данных для точной регрессионной модели тепловой карты, как и DeepPose, используются промежуточные карты функций из грубой регрессионной модели тепловой карты. также используется как ввод.
Это может помочь уменьшить количество параметров и действовать как регуляризатор для грубой модели тепловой карты.
Регрессионная модель точной тепловой карты дает (∆x, ∆y) для суставов. Добавляя с (x, y) в грубую модель, мы можем получить окончательные результаты.

3.2. Модуль обрезки

Перед тем, как пройти через регрессионную модель точной тепловой карты, тепловые карты и карты функций должны пройти через модуль кадрирования.
Чтобы сохранить постоянный контекстный размер окна, выполняется масштабирование обрезанной области на каждом более высоком уровне разрешения.

3.3. Сиамская сеть

Допустим, будет 14 стыков, у нас получится 14 сетей, параметров много.
Авторы используют сиамскую сеть, в которой общие веса и предвзятости для всех экземпляров.
Это может уменьшить количество параметров и предотвратить перетренированность.
Наконец, свертка 1 × 1 без разделения веса используется для вывода тепловой карты с подробным разрешением для каждого сустава. Цель этого последнего слоя - выполнить окончательное обнаружение для каждого сустава. .

3.4. Сеть с точной тепловой картой для одного стыка

CNN из 4 путей, показанных выше, представляет собой сеть для одного соединения.
При необходимости применяется апскейлинг.
И все карты функций из всех 4 путей складываются вместе, а затем проходят свертку 1 × 1 для получения выходных данных.

3.5. Совместное обучение

Сначала предварительно обучается грубая модель тепловой карты.
Затем фиксируется грубая модель тепловой карты и обучается точная модель тепловой карты, используя следующую функцию потерь:

где G’j и Gj - это прогнозируемая тепловая карта для j -го стыка.
Наконец, грубая и точная модели обучаются совместно путем минимизации E3 = E1 + λ × E2, где λ = 0,1.

4. Исследование абляции

4.1. Наборы данных

Набор данных FLIC состоит из 3 987 обучающих примеров и 1 016 тестовых примеров неподвижных сцен из голливудских фильмов, помеченных метками суставов верхней части тела. Позы преимущественно прямые и обращенные лицом к лицу.
Набор данных MPII включает широкий спектр аннотаций позы всего тела в рамках 28 821 тренировочных и 11 701 тестовых примеров.

4.2. Эффект объединения

Чем больше используется пул, тем хуже производительность.

Измеряется стандартное отклонение σ от наземных стыков.
Шум метки (10 изображений): 13 пользователей аннотировали 10 случайных изображений из набора тестов FLIC для лица, левого запястья, левого плеча и левого локтевого сустава. Это можно рассматривать как действия человека.
Опять же, чем больше используется пул, тем хуже производительность.

4.3. Только грубая или каскадная модель

Только с грубой моделью ошибка предсказания (пиксели) широко распространяется.
В каскадной модели ошибка прогноза (в пикселях) более узкая.

4.4. Эффект каскадной модели

С меньшим количеством пулов (4 ×) и с каскадной моделью производительность является наилучшей.
Каскадный эффект значительный, когда используется 8-кратное и 16-кратное объединение.

4.5. Время тестирования

Используется графический процессор Nvidia-K40.
Чем меньше пулов (в 4 раза), тем дольше время тестирования.

4.6. Общие функции и SpatialDropout

(Слева) Базовый / Стандартный каскад: точная модель принимает только изображение в качестве входных данных, а грубая и точная модели обучаются независимо.
(Слева) Общие функции: карты функций в грубой модели также действуют как входные данные для точной модели. Конечно, общие функции дают лучший результат.
(Справа) с пространственным выпадением: уровень обнаружения выше.

5. Сравнение с современными подходами

5.1. FLIC

Предлагаемая каскадная сеть превосходит все современные подходы, включая Tompson NIPS’14.

5.2. MPII

Опять же, предлагаемая каскадная сеть с большим отрывом превосходит все современные подходы.

С помощью каскадной сети для точной настройки прогнозируемого местоположения соединения можно получить более высокую скорость обнаружения.

Ссылка

[2015 CVPR] [Tompson CVPR’15]
Эффективная локализация объектов с использованием сверточных сетей

Мои предыдущие обзоры

Классификация изображений
[LeNet] [AlexNet] [ZFNet] [VGGNet] [Шоссе] [SPPNet] [PReLU-Net] [STN] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Inception-v3] [Inception-v4] [Xception] [ MobileNetV1] [ResNet] [Pre-Activation ResNet] [RiR] [RoR] [Стохастическая глубина] [WRN] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet] [DRN] [DPN] [MSDNet]

Обнаружение объектов
[OverFeat] [R-CNN] [Fast R-CNN] [Faster R-CNN] [MR-CNN & S-CNN ] [ DeepID-Net ] [ КРАФТ ] [ R-FCN ] [ ION ] [ MultiPathNet ] [ NoC ] [ GBD-Net / GBD-v1 & GBD-v2 ] [G-RMI] [TDM] [SSD] [DSSD] [YOLOv1] [YOLOv2 / YOLO9000] [YOLOv3] [FPN] [RetinaNet] [DCN]

Семантическая сегментация
[FCN] [DeconvNet] [DeepLabv1 & DeepLabv2] [CRF-RNN] [SegNet] [ParseNet] [DilatedNet ] [ DRN ] [ RefineNet ] [ PSPNet ] [ DeepLabv3 ]

Сегментация биомедицинских изображений
[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-FCN] [U-Net + ResNet] [ Многоканальный] [V-Net] [3D U-Net]

Сегментация экземпляра
[SDS] [Hypercolumn] [DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [ FCIS ]

Суперразрешение
[SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net] [DRCN] [DRRN] [LapSRN & MS-LapSRN] [SRDenseNet]

Оценка позы человека
[DeepPose] [Tompson NIPS’14]