Обзор: SharpMask - 1-е место в сегменте COCO Segmentation 2015 (Instance Segmentation)

Модуль уточнения, архитектура кодировщика-декодера от Facebook AI Research (FAIR)

В этой статье рассматривается SharpMask от Facebook AI Research (FAIR). Архитектура кодировщика-декодера стала обычным явлением с 2016 года. Объединив карты функций на проходе сверху вниз с картами функций на проходе снизу вверх, производительность можно еще больше повысить.

Обнаружение объекта: определите категорию объекта и определите положение, используя ограничивающую рамку для каждого известного объекта на изображении.
Семантическая сегментация. Определите категорию объекта каждого пикселя для каждого известного объекта в изображении. Ярлыки учитывают классы.
Сегментация экземпляров: идентифицируйте каждый экземпляр объекта каждого пикселя для каждого известного объекта в изображении. Ярлыки зависят от экземпляра.

SharpMask заняла 2-е место в тесте MS COCO Segmentation Challenge и 2-е место в MS COCO Detection Challenge. Он был опубликован в 2016 ECCV с более чем 200 цитированием. (Сик-Хо Цанг @ средний)

Средний отзыв на MS COCO улучшается на 10–20%.
За счет оптимизации архитектуры скорость увеличивается на 50% по сравнению с DeepMask.
За счет использования дополнительных масштабов изображения запоминаемость мелких объектов улучшается примерно в 2 раза.
Применение SharpMask к Fast R-CNN также улучшает результаты обнаружения объектов.

Что покрывается

Архитектура кодировщика и декодера
Некоторые подробности
Оптимизация архитектуры
Результаты

1. Кодер Архитектура декодера

(а) Обычная сеть прямого распространения

Сеть содержит серию сверточных слоев, чередующихся с этапами объединения, которые уменьшают пространственные размеры карт функций, за которыми следует полностью связанный слой для создания маски объекта. Следовательно, прогноз каждого пикселя основан на полном представлении объекта, однако его разрешение входной функции низкое из-за нескольких этапов объединения.
Эта сетевая архитектура аналогична подходу DeepMask.

DeepMask лишь грубо выравнивает границы объекта.
SharpMask позволяет создавать более четкие маски объектов с точностью до пикселя.

(б) Мультимасштабная сеть

Эта архитектура эквивалентна независимому прогнозированию на каждом сетевом уровне, повышающей дискретизации и усреднению результатов.
Эта сетевая архитектура аналогична подходам FCN и CUMedVision1 (примечание: они, например, не являются сегментацией).

(c) Сеть декодера кодировщика и (d) Модуль уточнения

После серии сверток на восходящем проходе (левая сторона сети) карты характеристик становятся очень маленькими.
Эти карты функций 3 × 3 свернуты и постепенно повышают дискретизацию на проходе сверху вниз (правая часть сети) с использованием 2-кратной билинейной интерполяции.
К этому добавляется, что соответствующие карты объектов одинакового размера F на восходящем проходе конкатенируются с картами объектов кодирования по маске M на проходе сверху вниз перед повышающей дискретизацией.
Перед каждой конкатенацией также выполняется свертка 3 × 3 для F, чтобы уменьшить количество карт функций, поскольку прямая конкатенация требует больших вычислительных ресурсов.
Конкатенация также использовалась во многих подходах к глубокому обучению, таких как знаменитая U-Net.
И авторы реорганизовали модуль уточнения, что привело к более эффективной реализации следующим образом:

2. Некоторые подробности

ImageNet-Pretrained используется 50-слойная ResNet.

Двухэтапное обучение

Во-первых, модель обучается совместно определять маску грубой пиксельной сегментации и оценку объекта с использованием прямого пути. Во-вторых, прямой путь "замораживается" и модули уточнения обучаются.

Может быть получена более быстрая сходимость.
У нас может быть грубая маска с использованием только прямого пути или резкая маска с использованием путей снизу вверх и сверху вниз.
Выгоды от точной настройки всей сети минимальны после схождения прямой ветви.

Во время вывода полного изображения

Дорабатываются только самые перспективные локации. Уточнены окна предложений по оценке Top N.

3. Оптимизация архитектуры

Требуется снизить сложность сети. И обнаружено, что DeepMask тратит 40% своего времени на извлечение признаков, 40% на прогнозирование маски и 20% на прогнозирование баллов.

3.1. Архитектура багажника

Размер ввода W: уменьшение W снижает плотность шага S, что еще больше снижает точность.
Объединение слоев P: большее объединение P приводит к более быстрым вычислениям, а также к потере разрешения функций.
Плотность шага S: удвоение шага при постоянном значении W значительно снижает производительность.
Глубина D: увеличение D в контексте сегментации экземпляров, уменьшение пространственного разрешения снижает производительность.
Каналы функций F: использование свертки 1 × 1 для уменьшения F и демонстрации того, что таким образом можно добиться значительного ускорения.

W160-P4-D39-F128: обеспечивает компромисс между скоростью и точностью.
Верхняя и последняя строки - это время для DeepMask и SharpMask (т.е. W160-P4-D39-F128) с использованием многомасштабного вывода, исключая время прогнозирования временной оценки соответственно.
Общее время для DeepMask и SharpMask составляет 1,59 с и 0,76 с на изображение соответственно. Это означает, что FPS составляет около 0,63 FPS и 1,32 FPS в секунду для DeepMask и SharpMask соответственно.

3.2. Голова Архитектура

Головная архитектура также потребляет определенную сложность модели.

(а): Оригинальная архитектура головы DeepMask для получения маски и очков.
(b) - (d): различные общие сверточные и полносвязные слои для получения маски и оценки.

Головка C выбрана из-за ее простоты и времени.

3.3. Количество карт характеристик в разных конвенциях

(а) Количество карт признаков одинаково для всех сверток.
(b) Количество карт объектов уменьшается по пути снизу вверх и увеличивается обратно по пути сверху вниз.
И (б) имеет меньшее время вывода и аналогичный AUC (среднее значение по AR на 10, 100, 1000 предложений).

4. Результаты

4.1. Сегментация MS COCO

DeepMask-наш: DeepMask с оптимизированными стволом и головой, лучше, чем DeepMask.
SharpMask: лучше, чем предыдущие современные подходы
SharpMaskZoom и SharpMaskZoom²: с одним или двумя дополнительными меньшими масштабами и позволяет значительно повысить AR для небольших объектов.

4.2. Обнаружение объектов и результаты в MS COCO Challenges 2015

верхний

Применяя SharpMask к Fast R-CNN с VGGNet в качестве основы для извлечения признаков, то есть третьей строки, SharpMask + VGG, это лучше, чем выборочный поиск (то есть исходный Fast R-CNN) и RPN (Сеть предложений регионов, то есть Faster R-CNN).

Середина

SharpMask + MPN (еще одна магистраль, называемая MultiPathNet), получает 2-е место в тесте сегментации MS COCO.

Нижний

SharpMask + MPN, получает 2-е место в MS COCO Detection Challenge, лучше, чем ION.

Но на тот момент SharpMask использовала только VGGNet в качестве магистрали. Таким образом, результаты были хуже.

4.3. Качественные результаты

За счет постепенного повышения частоты дискретизации с объединением ранних функциональных карт с поздними функциональными картами SharpMask превосходит DeepMask.

Ссылка

[2016 ECCV] [SharpMask]
Обучение уточнению сегментов объектов

Мои похожие обзоры

Классификация изображений
[LeNet] [AlexNet] [ZFNet] [VGGNet] [SPPNet] [PReLU-Net] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Inception-v3] [Inception-v4] [Xception] [MobileNetV1] [ResNet] [ Pre-Activation ResNet] [RiR] [RoR] [Stochastic Depth] [WRN] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet]

Обнаружение объектов
[OverFeat] [R-CNN] [Fast R-CNN] [Faster R-CNN] [DeepID-Net] [ R-FCN ] [ YOLOv1 ] [ SSD ] [ YOLOv2 / YOLO9000 ]

Семантическая сегментация
[FCN] [DeconvNet] [DeepLabv1 & DeepLabv2] [ParseNet] [DilatedNet] [PSPNet]

Сегментация биомедицинских изображений
[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-FCN]

Сегментация экземпляра
[DeepMask]