Обзор: КРАФТ - Каскадная область-предложение-сеть и FasT r-cnn (обнаружение объектов)

Лучшие предложения по объектам, более точная классификация объектов, превосходит более быстрый R-CNN

В этой статье рассматривается CRAFT Китайской академии наук и Университета Цинхуа. В Faster R-CNN для генерации предложений используется региональная сеть предложений (RPN). Эти предложения после объединения ROI проходят через сеть для классификации. Однако выяснилось, что в Faster R-CNN есть основная проблема:

При создании предложения все еще существует значительная часть фоновых регионов. Наличие множества фоновых образцов вызывает множество ложных срабатываний.

В CRAFT, как показано выше, после RPN добавляется еще один CNN, чтобы генерировать меньше предложений (например, 300 здесь). Затем выполняется классификация этих 300 предложений и выводится около 20 результатов обнаружения примитивов. Для каждого примитивного результата выполняется уточненное обнаружение объекта с использованием классификации «один против остальных». Он опубликован в CVPR за 2016 г. с более чем 50 цитированием. (Сик-Хо Цанг @ средний)

Контур

Каскадное создание предложений
Каскадная классификация объектов
Исследование абляции
Результаты

1. Каскадное создание предложений

1.1. Исходный RPN

Идеальный генератор предложений должен генерировать как можно меньше предложений, охватывая почти все экземпляры объектов. Из-за потери разрешения, вызванной операцией объединения CNN и фиксированным соотношением сторон скользящего окна, RPN неэффективен при покрытии объектов с экстремальными масштабами или формами.

Приведенные выше результаты представляют собой базовый RPN, основанный на VGG_M, обученном с использованием PASCAL VOC 2007 train + val и протестированном на тестовом наборе.
Скорость отзыва по каждой категории объектов сильно различается. Объекты с экстремальным соотношением сторон и масштабом трудно обнаружить, например лодку и бутылку.

1.2. Предлагаемая каскадная структура

Дополнительная классификационная сеть, идущая после RPN.
Дополнительная сеть представляет собой сеть обнаружения 2-го класса, обозначенную на приведенном выше рисунке как FRCN net. Он использует выходные данные RPN в качестве обучающих данных.
После обучения сети RPN 2000 примитивных предложений каждого обучающего образа используются в качестве обучающих данных для сети FRCN.
Во время обучения положительная и отрицательная выборка основана на 0,7 IoU для положительных результатов и ниже 0,3 IoU для отрицательных соответственно.
Есть два преимущества:
1) Во-первых, дополнительная сеть FRCN дополнительно улучшает качество предложений объектов и сжимает больше фоновых областей, благодаря чему предложения лучше соответствуют требованиям задачи.
2) Во-вторых, предложения из нескольких источников могут быть объединены в качестве входных данных сети FRCN, чтобы можно было использовать дополнительную информацию.

2. Каскадная классификация объектов.

2.1. Базовая линия Fast R-CNN

Он слабо улавливает внутрикатегорийную дисперсию, поскольку «фоновый» класс обычно занимает большую часть обучающих выборок.
Как показано на рисунке выше, ошибка неправильной классификации является серьезной проблемой при окончательном обнаружении.

2.2. Предлагаемая каскадная структура

Чтобы решить проблему слишком большого количества ложных срабатываний, вызванных неправильной классификацией, классификатор «один против остальных» используется в качестве дополнительных двухклассовых потерь кросс-энтропии для каждой категории объектов, как показано выше.
Каждый классификатор one-vs-rest видит предложения, относящиеся к одной конкретной категории объектов (также содержащие несколько ложных срабатываний), что делает его сосредоточенным на обнаружении внутрикатегорийной дисперсии.
Стандартная сеть FRCN (FRCN-1) сначала обучается с использованием предложений объектов из каскадной структуры предложений.
Затем другая сеть FRCN (FRCN-2) обучается на основе выходных данных FRCN-1, которые являются примитивными обнаружениями.
Примитивные обнаружения, которые классифицируются как «фоновые», отбрасываются.
Используется сумма N 2-классных перекрестных энтропийных потерь, где N равно количеству категорий объектов.
Веса свертки FRCN-1 и FRCN-2 являются общими, поэтому карты характеристик полного изображения необходимо вычислять только один раз.
Новые слои для получения 2 N оценок и 4 N целей регрессии ограничивающего прямоугольника инициализируются из гауссовского распределения.
Таким образом, во время тестирования с 300 предложениями объектов в качестве входных данных FRCN-1 выводит около 20 примитивных обнаружений, каждое из которых имеет N оценок примитивов.
Затем каждое обнаружение примитивов снова классифицируется с помощью FRCN-2, и полученные оценки (N категорий) умножаются на оценки примитивов (N категорий) в категории за категорией. способ получить окончательные N баллов за это обнаружение.

3. Исследование абляции

3.1. Генерация предложения

Используется VGG-19, предварительно обученный на ILSVRC DET train + va1, и протестирован на val2.
Предлагаемый FRCN с использованием положительной и отрицательной выборки на основе более 0,7 IoU и менее 0,3 IoU соответственно, имеет наивысшую частоту отзыва 92,37%, что выше, чем RPN, более чем на 2%.
И предлагаемый FRCN, который использует 300 предложений, лучше, чем выборочный поиск (SS), который использует 2000 предложений.

Предложения RPN не так хорошо локализованы по сравнению с восходящими методами (низкая частота отзыва при высоких порогах IoU).
Использование более крупной сети не может помочь (RPN_L), потому что это вызвано фиксированными якорями.
«Ours» сохраняет фиксированное количество предложений на изображение (то же, что и RPN), а «Ours_S» сохраняет предложения, оценки которых (результат каскадного классификатора FRCN) превышают фиксированный порог.
Каскадный генератор предложений не только дополнительно устраняет фоновые предложения, но и обеспечивает лучшую локализацию, что помогает в обнаружении AP.

3.2. Классификация объектов

«то же самое»: означает без точной настройки. Аналогичная карта с картой без каскадной классификации. Это похоже на двойной запуск FRCN-1, который представляет собой итеративную регрессию ограничивающего прямоугольника.
«clf»: точная настройка дополнительных весов классификации «один против остальных». MAP улучшается до 66,3%.
«fc + clf»: точная настройка всех слоев после последних сверточных слоев. MAP составляет 68,0%, что дает наилучшие результаты.
«conv + fc + clf»: это похоже на полную тренировку представления новой функции, изучение другого классификатора.

Если исходная классификация заменяется методом «один против остальных», то MAP станет хуже, которая составила только 46,1%.
Если используется каскадная классификация, MAP улучшается до 68,0%.

4. Результаты

4.1. PASCAL VOC 2007 и 2012

FRCN: Fast R-CNN.
RPN_un: Более быстрый R-CNN с неразделенными CNN между сетью предложения и сетью классификатора.
RPN: Быстрее R-CNN.
CRAFT: с каскадной сетью предложений это лучше, чем RPN_un в VOC 2007, но хуже, чем RPN. С сетью каскадных классификаторов он лучше, чем Faster R-CNN как в VOC 2007, так и в VOC 2012.

4.2. Задача обнаружения объектов ILSVRC

0.6 NMS: более строгая NMS, лучше, чем базовая.
Повторная оценка. Также помогает повторная оценка каждого предложения с учетом обеих оценок на двух этапах каскадной структуры.
+ DeepBox: предложения Fusion DeepBox с предложениями RPN, поскольку вход слияния в сеть FRCN повышает коэффициент отзыва до более 94%. Лучше, чем + SS.

Здесь используется модель GoogLeNet с пакетной нормализацией.
В качестве обучающего набора используются ILSVRC 2013train + 2014train + val1.
С каскадной сетью предложений достигается 47.0% MAP, что уже превосходит результат ансамбля предыдущих современных систем, таких как Superpixel Labeling и DeepID-Net.
Кроме того, с сетью каскадных классификаторов, MAP 48,5%, абсолютный прирост составляет 1,5%.

Благодаря тому, что каскадная сеть применяется как к региональной сети предложений, так и к сети классификаторов, точность обнаружения повышается.

Ссылка

[2016 CVPR] [CRAFT]
СОЗДАВАЙТЕ объекты из изображений

Мои предыдущие обзоры

Классификация изображений
[LeNet] [AlexNet] [ZFNet] [VGGNet] [Шоссе] [SPPNet] [PReLU-Net] [STN] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Inception-v3] [Inception-v4] [Xception] [ MobileNetV1] [ResNet] [Pre-Activation ResNet] [RiR] [RoR] [Стохастическая глубина] [WRN] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet] [DRN]

Обнаружение объектов
[OverFeat] [R-CNN] [Fast R-CNN] [Faster R-CNN] [DeepID-Net] [ R-FCN ] [ ION ] [ MultiPathNet ] [ NoC ] [ G-RMI ] [ TDM ] [ SSD ] [ DSSD ] [ YOLOv1 ] [ YOLOv2 / YOLO9000 ] [ YOLOv3 ] [ FPN ] [ RetinaNet ] [ DCN ]

Семантическая сегментация
[FCN] [DeconvNet] [DeepLabv1 & DeepLabv2] [SegNet] [ParseNet] [DilatedNet] [PSPNet] [DeepLabv3] [DRN]

Сегментация биомедицинских изображений
[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-FCN] [U-Net + ResNet] [ Многоканальный]

Сегментация экземпляра
[DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [FCIS]

Суперразрешение
[SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net] [DRCN] [DRRN] [LapSRN & MS-LapSRN]