Благодаря SpatialDropout, каскадным грубым и точным регрессиям тепловой карты превосходит Tompson NIPS’14
В этом рассказе кратко рассматривается статья Эффективная локализация объектов с использованием сверточных сетей, подготовленная Нью-Йоркским университетом. Кажется, что в этой статье нет краткой формы подхода. Поскольку имя первого автора этой статьи на 2015 CVPR - Томпсон, я назвал его просто Tompson CVPR’15 в названии. Вы можете заметить, как это сделано в Нью-Йоркском университете, это также один из проф. Документы ЛеКуна. Буквально в прошлом месяце, в марте 2019 года, ЛеКун получил премию Тьюринга, разделив ее с Йошуа Бенжио и Джеффри Хинтоном, где награда Тьюринга является «Нобелевской премией по вычислительной технике». И это статья с более чем 300 цитированием. (Сик-Хо Цанг @ средний)
Целью оценки позы человека является определение положения суставов человека. Существует множество трудностей, таких как окклюзия суставов, вариации формы тела, одежды, освещения, углов обзора и т. д.
Контур
- Грубая регрессия тепловой карты
- SpatialDropout
- Регрессия точной тепловой карты с использованием каскадной архитектуры
- Исследование абляции
- Сравнение с современными подходами
1. Грубая регрессия тепловой карты
- Сеть представляет собой полностью сверточную сеть.
- Используются входные данные трех различных масштабов и выводятся тепловые карты для каждого сустава.
- На первом уровне ко входному изображению применяется нормализация локальной контрастности (LCN).
- Для тестирования доступны 2 набора данных: FLIC и MPII.
- Для FLIC используется 7-ступенчатая сверточная нейронная сеть (CNN), а для MPII - 11-ступенчатая CNN.
- Из-за объединения выходное изображение имеет более низкое разрешение, чем входное изображение.
- Среднеквадратичная ошибка (MSE) используется как функция потерь, где H'j и Hj - это прогнозируемая и достоверная тепловая карта для j -й стык.
- Во время обучения случайная степень вращения r из [-20, +20], масштабирование s из [0,5, 1,5] и перевернутая версия с p = 0,5 применяются для увеличения данных.
2. SpatialDropout
2.1. Стандартный отсев
- Две верхние строки пикселей представляют ядра свертки для карт признаков 1 и 2, а нижняя строка представляет выходные объекты предыдущего слоя.
- Для стандартного исключения, скажем, например, справа от рисунка выше, хотя f2b отброшен, сильно коррелированный f2a все еще остается здесь.
- Поскольку сеть представляет собой полностью сверточную сеть, отсев неэффективен.
2.2. Пространственный
- Предлагается новый отсев, SpatialDropout.
- Предположим, есть карты объектов размером n _ feats × height × width, только n_feats выпадают испытания.
- Значение выпадения распространяется на всю карту функций.
- Следовательно, смежные пиксели в выпавшей карте функций либо все 0 (выпали), либо все активны, как показано справа на рисунке выше.
- Этот дополнительный выпадающий слой добавляется перед первым сверточным слоем 1 × 1, как показано на первом рисунке.
3. Точная регрессия тепловой карты с использованием каскадной архитектуры
3.1. Каскадная архитектура
- Здесь цель состоит в том, чтобы восстановить пространственную точность, потерянную из-за объединения грубой регрессионной модели тепловой карты.
- Вместо использования только выходной тепловой карты в качестве входных данных для точной регрессионной модели тепловой карты, как и DeepPose, используются промежуточные карты функций из грубой регрессионной модели тепловой карты. также используется как ввод.
- Это может помочь уменьшить количество параметров и действовать как регуляризатор для грубой модели тепловой карты.
- Регрессионная модель точной тепловой карты дает (∆x, ∆y) для суставов. Добавляя с (x, y) в грубую модель, мы можем получить окончательные результаты.
3.2. Модуль обрезки
- Перед тем, как пройти через регрессионную модель точной тепловой карты, тепловые карты и карты функций должны пройти через модуль кадрирования.
- Чтобы сохранить постоянный контекстный размер окна, выполняется масштабирование обрезанной области на каждом более высоком уровне разрешения.
3.3. Сиамская сеть
- Допустим, будет 14 стыков, у нас получится 14 сетей, параметров много.
- Авторы используют сиамскую сеть, в которой общие веса и предвзятости для всех экземпляров.
- Это может уменьшить количество параметров и предотвратить перетренированность.
- Наконец, свертка 1 × 1 без разделения веса используется для вывода тепловой карты с подробным разрешением для каждого сустава. Цель этого последнего слоя - выполнить окончательное обнаружение для каждого сустава. .
3.4. Сеть с точной тепловой картой для одного стыка
- CNN из 4 путей, показанных выше, представляет собой сеть для одного соединения.
- При необходимости применяется апскейлинг.
- И все карты функций из всех 4 путей складываются вместе, а затем проходят свертку 1 × 1 для получения выходных данных.
3.5. Совместное обучение
- Сначала предварительно обучается грубая модель тепловой карты.
- Затем фиксируется грубая модель тепловой карты и обучается точная модель тепловой карты, используя следующую функцию потерь:
- где G’j и Gj - это прогнозируемая тепловая карта для j -го стыка.
- Наконец, грубая и точная модели обучаются совместно путем минимизации E3 = E1 + λ × E2, где λ = 0,1.
4. Исследование абляции
4.1. Наборы данных
- Набор данных FLIC состоит из 3 987 обучающих примеров и 1 016 тестовых примеров неподвижных сцен из голливудских фильмов, помеченных метками суставов верхней части тела. Позы преимущественно прямые и обращенные лицом к лицу.
- Набор данных MPII включает широкий спектр аннотаций позы всего тела в рамках 28 821 тренировочных и 11 701 тестовых примеров.
4.2. Эффект объединения
- Чем больше используется пул, тем хуже производительность.
- Измеряется стандартное отклонение σ от наземных стыков.
- Шум метки (10 изображений): 13 пользователей аннотировали 10 случайных изображений из набора тестов FLIC для лица, левого запястья, левого плеча и левого локтевого сустава. Это можно рассматривать как действия человека.
- Опять же, чем больше используется пул, тем хуже производительность.
4.3. Только грубая или каскадная модель
- Только с грубой моделью ошибка предсказания (пиксели) широко распространяется.
- В каскадной модели ошибка прогноза (в пикселях) более узкая.
4.4. Эффект каскадной модели
- С меньшим количеством пулов (4 ×) и с каскадной моделью производительность является наилучшей.
- Каскадный эффект значительный, когда используется 8-кратное и 16-кратное объединение.
4.5. Время тестирования
- Используется графический процессор Nvidia-K40.
- Чем меньше пулов (в 4 раза), тем дольше время тестирования.
4.6. Общие функции и SpatialDropout
- (Слева) Базовый / Стандартный каскад: точная модель принимает только изображение в качестве входных данных, а грубая и точная модели обучаются независимо.
- (Слева) Общие функции: карты функций в грубой модели также действуют как входные данные для точной модели. Конечно, общие функции дают лучший результат.
- (Справа) с пространственным выпадением: уровень обнаружения выше.
5. Сравнение с современными подходами
5.1. FLIC
- Предлагаемая каскадная сеть превосходит все современные подходы, включая Tompson NIPS’14.
5.2. MPII
- Опять же, предлагаемая каскадная сеть с большим отрывом превосходит все современные подходы.
С помощью каскадной сети для точной настройки прогнозируемого местоположения соединения можно получить более высокую скорость обнаружения.
Ссылка
[2015 CVPR] [Tompson CVPR’15]
Эффективная локализация объектов с использованием сверточных сетей
Мои предыдущие обзоры
Классификация изображений
[LeNet] [AlexNet] [ZFNet] [VGGNet] [Шоссе] [SPPNet] [PReLU-Net] [STN] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Inception-v3] [Inception-v4] [Xception] [ MobileNetV1] [ResNet] [Pre-Activation ResNet] [RiR] [RoR] [Стохастическая глубина] [WRN] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet] [DRN] [DPN] [MSDNet]
Обнаружение объектов
[OverFeat] [R-CNN] [Fast R-CNN] [Faster R-CNN] [MR-CNN & S-CNN ] [ DeepID-Net ] [ КРАФТ ] [ R-FCN ] [ ION ] [ MultiPathNet ] [ NoC ] [ GBD-Net / GBD-v1 & GBD-v2 ] [G-RMI] [TDM] [SSD] [DSSD] [YOLOv1] [YOLOv2 / YOLO9000] [YOLOv3] [FPN] [RetinaNet] [DCN]
Семантическая сегментация
[FCN] [DeconvNet] [DeepLabv1 & DeepLabv2] [CRF-RNN] [SegNet] [ParseNet] [DilatedNet ] [ DRN ] [ RefineNet ] [ PSPNet ] [ DeepLabv3 ]
Сегментация биомедицинских изображений
[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-FCN] [U-Net + ResNet] [ Многоканальный] [V-Net] [3D U-Net]
Сегментация экземпляра
[SDS] [Hypercolumn] [DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [ FCIS ]
Суперразрешение
[SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net] [DRCN] [DRRN] [LapSRN & MS-LapSRN] [SRDenseNet]
Оценка позы человека
[DeepPose] [Tompson NIPS’14]