Использование каскада сверточных нейронных сетей для уточнения, современная производительность на четырех наборах данных

В этой статье рассматривается DeepPose от Google, для оценки позы человека. Она сформулирована как проблема регрессии на основе глубокой нейронной сети (DNN) к суставам тела. С помощью каскада DNN достигаются высокоточные оценки позы. Это статья CVPR за 2014 год, содержащая более 900 ссылок. (Сик-Хо Цанг @ средний)

Контур

  1. Вектор позы
  2. Сверточная нейронная сеть (CNN) как регрессор позы
  3. Каскад регрессоров позы
  4. Результаты

1. Поза вектора

  • Чтобы выразить позу, мы кодируем положения всех k суставов тела в векторе позы, определяемом как y:

  • Для каждого yi есть координаты x и y i -го сочленения. . Это абсолютные координаты внутри изображения.
  • Помеченное изображение обозначается (x, y), где x - данные изображения, а y - вектор истинной позы, как показано в уравнении выше. (Я следил за обозначениями в статье, хотя это могло немного запутать y.)
  • И мы можем нормализовать координаты yi по w.r.t. прямоугольник b, ограниченный человеческим телом или его частями, где b = (bc, bw, bh), где bc - центр, bw - ширина, а bh - высота:

  • Как показано выше, yi масштабируется по размеру блока и переводится по центру блока. С участием:

  • N (y; b) - нормализованный вектор позы. И N (x; b) - обрезка изображения x по ограничивающей рамке b .

2. C Эволюционная нейронная сеть (CNN) как регрессор позы

  • С обученными параметрами θ, ψ на основе CNN выводит нормализованное предсказание суставов. y * можно получить денормализацией N ^ -1.
  • Архитектура, как показано выше, представляет собой AlexNet.
  • Первый слой принимает в качестве входных изображения заранее заданного размера.
  • Последний слой выводит координаты соединения 2k.
  • C (55 × 55 × 96) - LRN - P - C (27 × 27 × 256) - LRN - P - C (13 × 13 × 384) - C (13 × 13 × 384) - C (13 × 13 × 256) - P - F (4096) - F (4096) где C - свертка, LRN - нормализация локального ответа, P - объединение, а F - полностью связанный уровень.
  • Общее количество параметров 40M.
  • Потеря - это потеря линейной регрессии, предсказывающая вектор позы путем минимизации расстояния L2 между предсказанным и исходным истинным вектором позы.
  • С нормализованным обучающим набором D_N потеря L2 составляет:

  • где k - количество стыков на этом изображении.
  • Размер мини-пакета составляет 128. Данные дополняются случайным переводом и переворотом влево / вправо.

3. Каскад регрессоров позы

  • Нелегко увеличить размер ввода, чтобы получить более точную оценку позы, поскольку это увеличит и без того большое количество параметров. Таким образом, предлагается каскад регрессоров позы.
  • Таким образом, с задействованным этапом s первый этап:

  • где b ⁰ - полное изображение или прямоугольник, полученный детектором людей.
  • Затем последующие этапы:

  • где diam (y) - это расстояние между противоположными суставами, например левым плечом и правым бедром, и затем масштабируется с помощью σ, σdiam (y ).
  • Для последующего слоя выполняется расширение для создания моделируемого прогноза на основе выборки смещения из Ni ^ (s -1):

  • И обучение основано на этом расширенном обучающем наборе:

4. Результаты

4.1. Наборы данных

  • Frames Labeled In Cinema (FLIC): 4000 обучающих и 1000 тестовых изображений из голливудских фильмов с разнообразными позами и разнообразной одеждой. Для каждого человека с меткой помечено 10 суставов верхней части тела.
  • Leeds Sports Dataset (LSP): 11000 тренировочных и 1000 тестовых изображений спортивных мероприятий со сложной внешностью и особенно артикуляцией. У большинства людей высота 150 пикселей. Для каждого человека все тело обозначено 14 суставами.

4.2. Метрики

  • Процент правильных частей (PCP): измеряет скорость обнаружения конечностей, при этом конечность считается обнаруженной, если расстояние между двумя прогнозируемыми местоположениями суставов и истинными местоположениями суставов конечностей составляет не более половины длины конечности. .
  • Процент обнаруженных суставов (PDJ): сустав считается обнаруженным, если расстояние между предполагаемым и истинным суставом находится в пределах определенной доли диаметра туловища. Изменяя эту долю, можно получить степень обнаружения для различной степени точности локализации.

4.3. Исследование абляции

  • Небольшой набор из 50 изображений для наборов данных FLIC и LSP.
  • Для FLIC σ = 1,0 после изучения значений {0,8, 1,0, 1,2}.
  • Для LSP σ = 2,0 после изучения значений {1,5, 1,7, 2,0, 2,3}.
  • Прекратите улучшения, когда S = 3 для вышеуказанных наборов данных.
  • Для каждого каскадного этапа, начиная с s = 2, добавляются 40 случайно переведенных рамок для обрезки. Для LSP с 14 суставами количество обучающих выборок = 11000 × 40 × 2 × 14 = 12M.
  • Время выполнения составляет примерно 0,1 с на образ на 12-ядерном ЦП.
  • Начальный этап обучался в течение 3 дней на ок. 100 рабочих, однако большая часть конечной производительности была достигнута через 12 часов.
  • Каждый этап уточнения обучался в течение 7 дней, так как объем данных был на 40 больше, чем на начальном этапе из-за увеличения данных.

  • Каскадирование CNN для уточнения помогает улучшить результаты.

  • Опять же, уточнение помогает улучшить результаты.

4.4. Сравнение с современными подходами

  • DeepPose обеспечивает наивысшую скорость обнаружения при разном нормализованном расстоянии до истинного стыка для обоих наборов данных.

  • DeepPose-st2 и DeepPose-st3 получают самые современные результаты.

4.5. Обобщение кросс-набора данных

  • Далее, модель верхней части тела, обученная на FLIC, была применена ко всему набору данных Buffy.
  • DeepPose дает сопоставимые результаты.

  • Модель всего тела, обученная на LSP, тестируется на тестовой части набора данных Image Parse.

4.6. Примеры Поз

Ссылка

[CVPR, 2014 г.] [DeepPose]
DeepPose: оценка позы человека с помощью глубоких нейронных сетей

Мои предыдущие обзоры

Классификация изображений
[LeNet] [AlexNet] [ZFNet] [VGGNet] [Шоссе] [SPPNet] [PReLU-Net] [STN] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Inception-v3] [Inception-v4] [Xception] [ MobileNetV1] [ResNet] [Pre-Activation ResNet] [RiR] [RoR] [Стохастическая глубина] [WRN] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet] [DRN] [MSDNet]

Обнаружение объектов
[OverFeat] [R-CNN] [Fast R-CNN] [Faster R-CNN] [MR-CNN & S-CNN ] [ DeepID-Net ] [ КРАФТ ] [ R-FCN ] [ ION ] [ MultiPathNet ] [ NoC ] [ G-RMI ] [ TDM ] [ SSD ] [ DSSD ] [ YOLOv1 ] [ YOLOv2 / YOLO9000 ] [ YOLOv3 ] [ FPN ] [ RetinaNet ] [ DCN ]

Семантическая сегментация
[FCN] [DeconvNet] [DeepLabv1 & DeepLabv2] [CRF-RNN] [SegNet] [ParseNet] [DilatedNet ] [ PSPNet ] [ DeepLabv3 ] [ DRN ]

Сегментация биомедицинских изображений
[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-FCN] [U-Net + ResNet] [ Многоканальный] [V-Net]

Сегментация экземпляра
[SDS] [Hypercolumn] [DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [ FCIS ]

Суперразрешение
[SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net] [DRCN] [DRRN] [LapSRN & MS-LapSRN] [SRDenseNet]

Оценка позы человека
[Tompson NIPS’14]