Использование каскада сверточных нейронных сетей для уточнения, современная производительность на четырех наборах данных
В этой статье рассматривается DeepPose от Google, для оценки позы человека. Она сформулирована как проблема регрессии на основе глубокой нейронной сети (DNN) к суставам тела. С помощью каскада DNN достигаются высокоточные оценки позы. Это статья CVPR за 2014 год, содержащая более 900 ссылок. (Сик-Хо Цанг @ средний)
Контур
- Вектор позы
- Сверточная нейронная сеть (CNN) как регрессор позы
- Каскад регрессоров позы
- Результаты
1. Поза вектора
- Чтобы выразить позу, мы кодируем положения всех k суставов тела в векторе позы, определяемом как y:
- Для каждого yi есть координаты x и y i -го сочленения. . Это абсолютные координаты внутри изображения.
- Помеченное изображение обозначается (x, y), где x - данные изображения, а y - вектор истинной позы, как показано в уравнении выше. (Я следил за обозначениями в статье, хотя это могло немного запутать y.)
- И мы можем нормализовать координаты yi по w.r.t. прямоугольник b, ограниченный человеческим телом или его частями, где b = (bc, bw, bh), где bc - центр, bw - ширина, а bh - высота:
- Как показано выше, yi масштабируется по размеру блока и переводится по центру блока. С участием:
- N (y; b) - нормализованный вектор позы. И N (x; b) - обрезка изображения x по ограничивающей рамке b .
2. C Эволюционная нейронная сеть (CNN) как регрессор позы
- С обученными параметрами θ, ψ на основе CNN выводит нормализованное предсказание суставов. y * можно получить денормализацией N ^ -1.
- Архитектура, как показано выше, представляет собой AlexNet.
- Первый слой принимает в качестве входных изображения заранее заданного размера.
- Последний слой выводит координаты соединения 2k.
- C (55 × 55 × 96) - LRN - P - C (27 × 27 × 256) - LRN - P - C (13 × 13 × 384) - C (13 × 13 × 384) - C (13 × 13 × 256) - P - F (4096) - F (4096) где C - свертка, LRN - нормализация локального ответа, P - объединение, а F - полностью связанный уровень.
- Общее количество параметров 40M.
- Потеря - это потеря линейной регрессии, предсказывающая вектор позы путем минимизации расстояния L2 между предсказанным и исходным истинным вектором позы.
- С нормализованным обучающим набором D_N потеря L2 составляет:
- где k - количество стыков на этом изображении.
- Размер мини-пакета составляет 128. Данные дополняются случайным переводом и переворотом влево / вправо.
3. Каскад регрессоров позы
- Нелегко увеличить размер ввода, чтобы получить более точную оценку позы, поскольку это увеличит и без того большое количество параметров. Таким образом, предлагается каскад регрессоров позы.
- Таким образом, с задействованным этапом s первый этап:
- где b ⁰ - полное изображение или прямоугольник, полученный детектором людей.
- Затем последующие этапы:
- где diam (y) - это расстояние между противоположными суставами, например левым плечом и правым бедром, и затем масштабируется с помощью σ, σdiam (y ).
- Для последующего слоя выполняется расширение для создания моделируемого прогноза на основе выборки смещения ẟ из Ni ^ (s -1):
- И обучение основано на этом расширенном обучающем наборе:
4. Результаты
4.1. Наборы данных
- Frames Labeled In Cinema (FLIC): 4000 обучающих и 1000 тестовых изображений из голливудских фильмов с разнообразными позами и разнообразной одеждой. Для каждого человека с меткой помечено 10 суставов верхней части тела.
- Leeds Sports Dataset (LSP): 11000 тренировочных и 1000 тестовых изображений спортивных мероприятий со сложной внешностью и особенно артикуляцией. У большинства людей высота 150 пикселей. Для каждого человека все тело обозначено 14 суставами.
4.2. Метрики
- Процент правильных частей (PCP): измеряет скорость обнаружения конечностей, при этом конечность считается обнаруженной, если расстояние между двумя прогнозируемыми местоположениями суставов и истинными местоположениями суставов конечностей составляет не более половины длины конечности. .
- Процент обнаруженных суставов (PDJ): сустав считается обнаруженным, если расстояние между предполагаемым и истинным суставом находится в пределах определенной доли диаметра туловища. Изменяя эту долю, можно получить степень обнаружения для различной степени точности локализации.
4.3. Исследование абляции
- Небольшой набор из 50 изображений для наборов данных FLIC и LSP.
- Для FLIC σ = 1,0 после изучения значений {0,8, 1,0, 1,2}.
- Для LSP σ = 2,0 после изучения значений {1,5, 1,7, 2,0, 2,3}.
- Прекратите улучшения, когда S = 3 для вышеуказанных наборов данных.
- Для каждого каскадного этапа, начиная с s = 2, добавляются 40 случайно переведенных рамок для обрезки. Для LSP с 14 суставами количество обучающих выборок = 11000 × 40 × 2 × 14 = 12M.
- Время выполнения составляет примерно 0,1 с на образ на 12-ядерном ЦП.
- Начальный этап обучался в течение 3 дней на ок. 100 рабочих, однако большая часть конечной производительности была достигнута через 12 часов.
- Каждый этап уточнения обучался в течение 7 дней, так как объем данных был на 40 больше, чем на начальном этапе из-за увеличения данных.
- Каскадирование CNN для уточнения помогает улучшить результаты.
- Опять же, уточнение помогает улучшить результаты.
4.4. Сравнение с современными подходами
- DeepPose обеспечивает наивысшую скорость обнаружения при разном нормализованном расстоянии до истинного стыка для обоих наборов данных.
- DeepPose-st2 и DeepPose-st3 получают самые современные результаты.
4.5. Обобщение кросс-набора данных
- Далее, модель верхней части тела, обученная на FLIC, была применена ко всему набору данных Buffy.
- DeepPose дает сопоставимые результаты.
- Модель всего тела, обученная на LSP, тестируется на тестовой части набора данных Image Parse.
4.6. Примеры Поз
Ссылка
[CVPR, 2014 г.] [DeepPose]
DeepPose: оценка позы человека с помощью глубоких нейронных сетей
Мои предыдущие обзоры
Классификация изображений
[LeNet] [AlexNet] [ZFNet] [VGGNet] [Шоссе] [SPPNet] [PReLU-Net] [STN] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Inception-v3] [Inception-v4] [Xception] [ MobileNetV1] [ResNet] [Pre-Activation ResNet] [RiR] [RoR] [Стохастическая глубина] [WRN] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet] [DRN] [MSDNet]
Обнаружение объектов
[OverFeat] [R-CNN] [Fast R-CNN] [Faster R-CNN] [MR-CNN & S-CNN ] [ DeepID-Net ] [ КРАФТ ] [ R-FCN ] [ ION ] [ MultiPathNet ] [ NoC ] [ G-RMI ] [ TDM ] [ SSD ] [ DSSD ] [ YOLOv1 ] [ YOLOv2 / YOLO9000 ] [ YOLOv3 ] [ FPN ] [ RetinaNet ] [ DCN ]
Семантическая сегментация
[FCN] [DeconvNet] [DeepLabv1 & DeepLabv2] [CRF-RNN] [SegNet] [ParseNet] [DilatedNet ] [ PSPNet ] [ DeepLabv3 ] [ DRN ]
Сегментация биомедицинских изображений
[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-FCN] [U-Net + ResNet] [ Многоканальный] [V-Net]
Сегментация экземпляра
[SDS] [Hypercolumn] [DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [ FCIS ]
Суперразрешение
[SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net] [DRCN] [DRRN] [LapSRN & MS-LapSRN] [SRDenseNet]
Оценка позы человека
[Tompson NIPS’14]