Три этапа: дифференциация экземпляров, оценка масок и категоризация объектов.

На этот раз мы кратко рассмотрим MNC (многозадачный сетевой каскад) от Microsoft Research. Модель состоит из трех сетей, соответственно различающих экземпляров, оценивающих масок и категоризации объектов. Эти сети образуют каскадную структуру и спроектированы так, чтобы разделять их сверточные функции.

Компания MNC заняла 1-е место в конкурсе на сегментирование COCO в 2015 году. И он опубликован в CVPR за 2016 год с более чем 300 цитированием. (Сик-Хо Цанг @ средний)

Что покрыто

  1. Архитектура многозадачных сетевых каскадов (MNC) (3 этапа)
  2. Каскады с большим количеством ступеней (5 ступеней)
  3. Результаты

1. Многозадачная сетевая каскадная архитектура (MNC)

здесь три этапа: предложение экземпляров на уровне блока, регрессия экземпляров на уровне маски и категоризация каждого экземпляра как выше.

Перед переходом к каждому этапу VGG16 получает карты сверточных характеристик. Эти сверточные карты функций используются на всех этапах.

1.1. Регрессия экземпляров уровня бокса

На первом этапе структура сети и функция потерь этого этапа повторяют работу сетей предложения регионов (RPN) в Faster R-CNN с использованием сверток.

В дополнение к общим функциям, сверточный слой 3x3 используется для уменьшения размеров, за которым следуют два одноуровневых сверточных слоя 1x1 для регрессии расположения блоков и классификации объекта / не-объекта. Эта функция потерь служит сроком убытков L1 на этапе 1:

где B - сетевой выход этого этапа. Bi - это поле, индексированное i. Поле Bi центрируется в точке (xi, yi) с шириной wi и высотой hi , а pi - вероятность объектности.

1.2. Регрессия экземпляров уровня маски

На втором этапе в качестве входных данных используются общие сверточные функции и блоки этапа 1. Он выводит маску сегментации на уровне пикселей для каждого предложения коробки. На этом этапе экземпляр уровня маски по-прежнему не зависит от класса.

Для блока, предсказанного на этапе 1, для блока выполняется объединение рентабельности инвестиций размером 14 × 14. Два дополнительных полносвязных (fc) слоя применяются к этой функции для каждого блока. Первый слой fc (с ReLU) уменьшает размер до 256, за ним следует второй слой fc, который регрессирует на m × m (m = 28) пиксельная маска. Эта маска выполняет двоичную логистическую регрессию к основной маске истинности и служит параметром потерь L2 на этапе 2:

где M - сетевой выход этого этапа. По сравнению с DeepMask, MNC регрессирует маски только из нескольких предложенных блоков и, таким образом, снижает вычислительные затраты.

1.3. Категоризация экземпляров

На третьем этапе в качестве входных данных используются общие сверточные характеристики, блоки этапа 1 и маски этапа 2. Он выводит оценки категорий для каждого экземпляра.

Учитывая блок, предсказанный на этапе 1, мы также извлекаем функцию путем объединения ROI. Эта карта характеристик затем «маскируется» предсказанием маски этапа 2. Это приводит к функции, сфокусированной на переднем плане маски прогнозирования.

Маскируемый признак задается поэлементным произведением. FROI - это функция после объединения ROI. M - это прогноз маски, полученный на этапе 2.

  • Два слоя 4096-d fc применены к маскированному элементу FMask. Это называется путь на основе маски.
  • И объединенные объекты рентабельности инвестиций напрямую передаются в два слоя 4096-d fc и формируют путь на основе блоков.
  • Пути на основе маски и прямоугольника объединены.
  • Помимо конкатенации, для прогнозирования N категорий плюс одна фоновая категория используется классификатор softmax из N +1 способов. Путь на уровне блока может применяться в тех случаях, когда функция в основном маскируется путем на уровне маски (например, на фоне). Срок убытков L3:

где C - сетевой вывод этого этапа, который представляет собой список прогнозов категорий для всех экземпляров.

Потеря сети становится:

2. Каскады с большим количеством ступеней (5 ступеней)

Сначала запустите всю трехэтапную сеть и получите блоки с регрессией на этапе 3. Эти блоки затем рассматриваются как новые предложения. По этим предложениям второй и третий этапы выполняются повторно. Фактически, это пятиступенчатый вывод.

3. Результаты

3.1. ПАСКАЛЬНЫЙ ЛОС 2012

  • С VGG16, используемым для извлечения функций, но без совместного использования функций между этапами: 60,2% mAP.
  • Совместное использование функций: 60,5% MAP.
  • Сквозное обучение, состоящее из 3 этапов: 62,6% MAP.
  • 5 этапов: 63,5% MAP.

  • MNC получает самую высокую карту при разных порогах IoU 0,5 и 0,7. Время вывода - самое короткое среди современных подходов.

  • Самая трудоемкая часть - это часть извлечения признаков (свёртка) VGG16.

  • Поскольку блоки могут быть предсказаны с помощью MNC, также оценивается обнаружение объектов на уровне блока.
  • MNC с использованием объединения 2007 trainval + test и 2012 trainval в качестве обучения, получено наивысшее значение mAP 75,9%, что существенно лучше, чем у Fast R-CNN и Faster R-CNN.

3.2. MS COCO

  • Используя VGG16 в качестве основы для извлечения признаков, получают 19,5% mAP @ [. 5: .95] и 39,7% mAP@0,5.
  • Используя ResNet-101 в качестве основы для извлечения функций, можно получить еще более высокие значения mAP, т. Е. 24,6% mAP @ [. 5: .95] и 44,3% [email protected]. .
  • Благодаря глобальному контекстному моделированию, многомасштабному тестированию и объединению окончательные результаты 28,2% mAP @ [. 5: .95] и Получено 51,5% mAP@0,5, и занял 1-е место в сегменте сегментации COCO.

3.3. Качественные результаты

Здесь представлены сведения о дифференцируемом слое деформации ROI, а также сведения о сетевых настройках. Я еще не упомянул здесь. Если интересно, посетите газету.

использованная литература

[2016 CVPR] [MNC]
Семантическая сегментация с учетом экземпляров с помощью многозадачных сетевых каскадов

Мои похожие обзоры

Классификация изображений
[LeNet] [AlexNet] [ZFNet] [VGGNet] [SPPNet] [PReLU-Net] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Inception-v3] [Inception-v4] [Xception] [MobileNetV1] [ResNet] [ Pre-Activation ResNet] [RiR] [RoR] [Stochastic Depth] [WRN] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet]

Обнаружение объектов
[OverFeat] [R-CNN] [Fast R-CNN] [Faster R-CNN] [DeepID-Net] [ R-FCN ] [ ION ] [ MultiPath ] [ YOLOv1 ] [ SSD ] [ YOLOv2 / YOLO9000 ] [ DSSD ]

Семантическая сегментация
[FCN] [DeconvNet] [DeepLabv1 & DeepLabv2] [ParseNet] [DilatedNet] [PSPNet]

Сегментация экземпляра
[DeepMask] [SharpMask] [MultiPath]