Обзор: DeepPose - Каскад CNN (оценка позы человека)

Использование каскада сверточных нейронных сетей для уточнения, современная производительность на четырех наборах данных

В этой статье рассматривается DeepPose от Google, для оценки позы человека. Она сформулирована как проблема регрессии на основе глубокой нейронной сети (DNN) к суставам тела. С помощью каскада DNN достигаются высокоточные оценки позы. Это статья CVPR за 2014 год, содержащая более 900 ссылок. (Сик-Хо Цанг @ средний)

Контур

Вектор позы
Сверточная нейронная сеть (CNN) как регрессор позы
Каскад регрессоров позы
Результаты

1. Поза вектора

Чтобы выразить позу, мы кодируем положения всех k суставов тела в векторе позы, определяемом как y:

Для каждого yi есть координаты x и y i -го сочленения. . Это абсолютные координаты внутри изображения.
Помеченное изображение обозначается (x, y), где x - данные изображения, а y - вектор истинной позы, как показано в уравнении выше. (Я следил за обозначениями в статье, хотя это могло немного запутать y.)
И мы можем нормализовать координаты yi по w.r.t. прямоугольник b, ограниченный человеческим телом или его частями, где b = (bc, bw, bh), где bc - центр, bw - ширина, а bh - высота:

Как показано выше, yi масштабируется по размеру блока и переводится по центру блока. С участием:

N (y; b) - нормализованный вектор позы. И N (x; b) - обрезка изображения x по ограничивающей рамке b .

2. C Эволюционная нейронная сеть (CNN) как регрессор позы

С обученными параметрами θ, ψ на основе CNN выводит нормализованное предсказание суставов. y * можно получить денормализацией N ^ -1.
Архитектура, как показано выше, представляет собой AlexNet.
Первый слой принимает в качестве входных изображения заранее заданного размера.
Последний слой выводит координаты соединения 2k.
C (55 × 55 × 96) - LRN - P - C (27 × 27 × 256) - LRN - P - C (13 × 13 × 384) - C (13 × 13 × 384) - C (13 × 13 × 256) - P - F (4096) - F (4096) где C - свертка, LRN - нормализация локального ответа, P - объединение, а F - полностью связанный уровень.
Общее количество параметров 40M.
Потеря - это потеря линейной регрессии, предсказывающая вектор позы путем минимизации расстояния L2 между предсказанным и исходным истинным вектором позы.
С нормализованным обучающим набором D_N потеря L2 составляет:

где k - количество стыков на этом изображении.
Размер мини-пакета составляет 128. Данные дополняются случайным переводом и переворотом влево / вправо.

3. Каскад регрессоров позы

Нелегко увеличить размер ввода, чтобы получить более точную оценку позы, поскольку это увеличит и без того большое количество параметров. Таким образом, предлагается каскад регрессоров позы.
Таким образом, с задействованным этапом s первый этап:

где b ⁰ - полное изображение или прямоугольник, полученный детектором людей.
Затем последующие этапы:

где diam (y) - это расстояние между противоположными суставами, например левым плечом и правым бедром, и затем масштабируется с помощью σ, σdiam (y ).
Для последующего слоя выполняется расширение для создания моделируемого прогноза на основе выборки смещения ẟ из Ni ^ (s -1):

И обучение основано на этом расширенном обучающем наборе:

4. Результаты

4.1. Наборы данных

Frames Labeled In Cinema (FLIC): 4000 обучающих и 1000 тестовых изображений из голливудских фильмов с разнообразными позами и разнообразной одеждой. Для каждого человека с меткой помечено 10 суставов верхней части тела.
Leeds Sports Dataset (LSP): 11000 тренировочных и 1000 тестовых изображений спортивных мероприятий со сложной внешностью и особенно артикуляцией. У большинства людей высота 150 пикселей. Для каждого человека все тело обозначено 14 суставами.

4.2. Метрики

Процент правильных частей (PCP): измеряет скорость обнаружения конечностей, при этом конечность считается обнаруженной, если расстояние между двумя прогнозируемыми местоположениями суставов и истинными местоположениями суставов конечностей составляет не более половины длины конечности. .
Процент обнаруженных суставов (PDJ): сустав считается обнаруженным, если расстояние между предполагаемым и истинным суставом находится в пределах определенной доли диаметра туловища. Изменяя эту долю, можно получить степень обнаружения для различной степени точности локализации.

4.3. Исследование абляции

Небольшой набор из 50 изображений для наборов данных FLIC и LSP.
Для FLIC σ = 1,0 после изучения значений {0,8, 1,0, 1,2}.
Для LSP σ = 2,0 после изучения значений {1,5, 1,7, 2,0, 2,3}.
Прекратите улучшения, когда S = 3 для вышеуказанных наборов данных.
Для каждого каскадного этапа, начиная с s = 2, добавляются 40 случайно переведенных рамок для обрезки. Для LSP с 14 суставами количество обучающих выборок = 11000 × 40 × 2 × 14 = 12M.
Время выполнения составляет примерно 0,1 с на образ на 12-ядерном ЦП.
Начальный этап обучался в течение 3 дней на ок. 100 рабочих, однако большая часть конечной производительности была достигнута через 12 часов.
Каждый этап уточнения обучался в течение 7 дней, так как объем данных был на 40 больше, чем на начальном этапе из-за увеличения данных.

Каскадирование CNN для уточнения помогает улучшить результаты.

Опять же, уточнение помогает улучшить результаты.

4.4. Сравнение с современными подходами

DeepPose обеспечивает наивысшую скорость обнаружения при разном нормализованном расстоянии до истинного стыка для обоих наборов данных.

DeepPose-st2 и DeepPose-st3 получают самые современные результаты.

4.5. Обобщение кросс-набора данных

Далее, модель верхней части тела, обученная на FLIC, была применена ко всему набору данных Buffy.
DeepPose дает сопоставимые результаты.

Модель всего тела, обученная на LSP, тестируется на тестовой части набора данных Image Parse.

4.6. Примеры Поз

Ссылка

[CVPR, 2014 г.] [DeepPose]
DeepPose: оценка позы человека с помощью глубоких нейронных сетей

Мои предыдущие обзоры

Классификация изображений
[LeNet] [AlexNet] [ZFNet] [VGGNet] [Шоссе] [SPPNet] [PReLU-Net] [STN] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Inception-v3] [Inception-v4] [Xception] [ MobileNetV1] [ResNet] [Pre-Activation ResNet] [RiR] [RoR] [Стохастическая глубина] [WRN] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet] [DRN] [MSDNet]

Обнаружение объектов
[OverFeat] [R-CNN] [Fast R-CNN] [Faster R-CNN] [MR-CNN & S-CNN ] [ DeepID-Net ] [ КРАФТ ] [ R-FCN ] [ ION ] [ MultiPathNet ] [ NoC ] [ G-RMI ] [ TDM ] [ SSD ] [ DSSD ] [ YOLOv1 ] [ YOLOv2 / YOLO9000 ] [ YOLOv3 ] [ FPN ] [ RetinaNet ] [ DCN ]

Семантическая сегментация
[FCN] [DeconvNet] [DeepLabv1 & DeepLabv2] [CRF-RNN] [SegNet] [ParseNet] [DilatedNet ] [ PSPNet ] [ DeepLabv3 ] [ DRN ]

Сегментация биомедицинских изображений
[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-FCN] [U-Net + ResNet] [ Многоканальный] [V-Net]

Сегментация экземпляра
[SDS] [Hypercolumn] [DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [ FCIS ]

Суперразрешение
[SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net] [DRCN] [DRRN] [LapSRN & MS-LapSRN] [SRDenseNet]

Оценка позы человека
[Tompson NIPS’14]