Лучшие предложения по объектам, более точная классификация объектов, превосходит более быстрый R-CNN

В этой статье рассматривается CRAFT Китайской академии наук и Университета Цинхуа. В Faster R-CNN для генерации предложений используется региональная сеть предложений (RPN). Эти предложения после объединения ROI проходят через сеть для классификации. Однако выяснилось, что в Faster R-CNN есть основная проблема:

  • При создании предложения все еще существует значительная часть фоновых регионов. Наличие множества фоновых образцов вызывает множество ложных срабатываний.

В CRAFT, как показано выше, после RPN добавляется еще один CNN, чтобы генерировать меньше предложений (например, 300 здесь). Затем выполняется классификация этих 300 предложений и выводится около 20 результатов обнаружения примитивов. Для каждого примитивного результата выполняется уточненное обнаружение объекта с использованием классификации «один против остальных». Он опубликован в CVPR за 2016 г. с более чем 50 цитированием. (Сик-Хо Цанг @ средний)

Контур

  1. Каскадное создание предложений
  2. Каскадная классификация объектов
  3. Исследование абляции
  4. Результаты

1. Каскадное создание предложений

1.1. Исходный RPN

  • Идеальный генератор предложений должен генерировать как можно меньше предложений, охватывая почти все экземпляры объектов. Из-за потери разрешения, вызванной операцией объединения CNN и фиксированным соотношением сторон скользящего окна, RPN неэффективен при покрытии объектов с экстремальными масштабами или формами.

  • Приведенные выше результаты представляют собой базовый RPN, основанный на VGG_M, обученном с использованием PASCAL VOC 2007 train + val и протестированном на тестовом наборе.
  • Скорость отзыва по каждой категории объектов сильно различается. Объекты с экстремальным соотношением сторон и масштабом трудно обнаружить, например лодку и бутылку.

1.2. Предлагаемая каскадная структура

  • Дополнительная классификационная сеть, идущая после RPN.
  • Дополнительная сеть представляет собой сеть обнаружения 2-го класса, обозначенную на приведенном выше рисунке как FRCN net. Он использует выходные данные RPN в качестве обучающих данных.
  • После обучения сети RPN 2000 примитивных предложений каждого обучающего образа используются в качестве обучающих данных для сети FRCN.
  • Во время обучения положительная и отрицательная выборка основана на 0,7 IoU для положительных результатов и ниже 0,3 IoU для отрицательных соответственно.
  • Есть два преимущества:
  • 1) Во-первых, дополнительная сеть FRCN дополнительно улучшает качество предложений объектов и сжимает больше фоновых областей, благодаря чему предложения лучше соответствуют требованиям задачи.
  • 2) Во-вторых, предложения из нескольких источников могут быть объединены в качестве входных данных сети FRCN, чтобы можно было использовать дополнительную информацию.

2. Каскадная классификация объектов.

2.1. Базовая линия Fast R-CNN

  • Он слабо улавливает внутрикатегорийную дисперсию, поскольку «фоновый» класс обычно занимает большую часть обучающих выборок.
  • Как показано на рисунке выше, ошибка неправильной классификации является серьезной проблемой при окончательном обнаружении.

2.2. Предлагаемая каскадная структура

  • Чтобы решить проблему слишком большого количества ложных срабатываний, вызванных неправильной классификацией, классификатор «один против остальных» используется в качестве дополнительных двухклассовых потерь кросс-энтропии для каждой категории объектов, как показано выше.
  • Каждый классификатор one-vs-rest видит предложения, относящиеся к одной конкретной категории объектов (также содержащие несколько ложных срабатываний), что делает его сосредоточенным на обнаружении внутрикатегорийной дисперсии.
  • Стандартная сеть FRCN (FRCN-1) сначала обучается с использованием предложений объектов из каскадной структуры предложений.
  • Затем другая сеть FRCN (FRCN-2) обучается на основе выходных данных FRCN-1, которые являются примитивными обнаружениями.
  • Примитивные обнаружения, которые классифицируются как «фоновые», отбрасываются.
  • Используется сумма N 2-классных перекрестных энтропийных потерь, где N равно количеству категорий объектов.
  • Веса свертки FRCN-1 и FRCN-2 являются общими, поэтому карты характеристик полного изображения необходимо вычислять только один раз.
  • Новые слои для получения 2 N оценок и 4 N целей регрессии ограничивающего прямоугольника инициализируются из гауссовского распределения.
  • Таким образом, во время тестирования с 300 предложениями объектов в качестве входных данных FRCN-1 выводит около 20 примитивных обнаружений, каждое из которых имеет N оценок примитивов.
  • Затем каждое обнаружение примитивов снова классифицируется с помощью FRCN-2, и полученные оценки (N категорий) умножаются на оценки примитивов (N категорий) в категории за категорией. способ получить окончательные N баллов за это обнаружение.

3. Исследование абляции

3.1. Генерация предложения

  • Используется VGG-19, предварительно обученный на ILSVRC DET train + va1, и протестирован на val2.
  • Предлагаемый FRCN с использованием положительной и отрицательной выборки на основе более 0,7 IoU и менее 0,3 IoU соответственно, имеет наивысшую частоту отзыва 92,37%, что выше, чем RPN, более чем на 2%.
  • И предлагаемый FRCN, который использует 300 предложений, лучше, чем выборочный поиск (SS), который использует 2000 предложений.

  • Предложения RPN не так хорошо локализованы по сравнению с восходящими методами (низкая частота отзыва при высоких порогах IoU).
  • Использование более крупной сети не может помочь (RPN_L), потому что это вызвано фиксированными якорями.
  • «Ours» сохраняет фиксированное количество предложений на изображение (то же, что и RPN), а «Ours_S» сохраняет предложения, оценки которых (результат каскадного классификатора FRCN) превышают фиксированный порог.
  • Каскадный генератор предложений не только дополнительно устраняет фоновые предложения, но и обеспечивает лучшую локализацию, что помогает в обнаружении AP.

3.2. Классификация объектов

  • «то же самое»: означает без точной настройки. Аналогичная карта с картой без каскадной классификации. Это похоже на двойной запуск FRCN-1, который представляет собой итеративную регрессию ограничивающего прямоугольника.
  • «clf»: точная настройка дополнительных весов классификации «один против остальных». MAP улучшается до 66,3%.
  • «fc + clf»: точная настройка всех слоев после последних сверточных слоев. MAP составляет 68,0%, что дает наилучшие результаты.
  • «conv + fc + clf»: это похоже на полную тренировку представления новой функции, изучение другого классификатора.

  • Если исходная классификация заменяется методом «один против остальных», то MAP станет хуже, которая составила только 46,1%.
  • Если используется каскадная классификация, MAP улучшается до 68,0%.

4. Результаты

4.1. PASCAL VOC 2007 и 2012

  • FRCN: Fast R-CNN.
  • RPN_un: Более быстрый R-CNN с неразделенными CNN между сетью предложения и сетью классификатора.
  • RPN: Быстрее R-CNN.
  • CRAFT: с каскадной сетью предложений это лучше, чем RPN_un в VOC 2007, но хуже, чем RPN. С сетью каскадных классификаторов он лучше, чем Faster R-CNN как в VOC 2007, так и в VOC 2012.

4.2. Задача обнаружения объектов ILSVRC

  • 0.6 NMS: более строгая NMS, лучше, чем базовая.
  • Повторная оценка. Также помогает повторная оценка каждого предложения с учетом обеих оценок на двух этапах каскадной структуры.
  • + DeepBox: предложения Fusion DeepBox с предложениями RPN, поскольку вход слияния в сеть FRCN повышает коэффициент отзыва до более 94%. Лучше, чем + SS.

  • Здесь используется модель GoogLeNet с пакетной нормализацией.
  • В качестве обучающего набора используются ILSVRC 2013train + 2014train + val1.
  • С каскадной сетью предложений достигается 47.0% MAP, что уже превосходит результат ансамбля предыдущих современных систем, таких как Superpixel Labeling и DeepID-Net.
  • Кроме того, с сетью каскадных классификаторов, MAP 48,5%, абсолютный прирост составляет 1,5%.

Благодаря тому, что каскадная сеть применяется как к региональной сети предложений, так и к сети классификаторов, точность обнаружения повышается.

Ссылка

[2016 CVPR] [CRAFT]
СОЗДАВАЙТЕ объекты из изображений

Мои предыдущие обзоры

Классификация изображений
[LeNet] [AlexNet] [ZFNet] [VGGNet] [Шоссе] [SPPNet] [PReLU-Net] [STN] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Inception-v3] [Inception-v4] [Xception] [ MobileNetV1] [ResNet] [Pre-Activation ResNet] [RiR] [RoR] [Стохастическая глубина] [WRN] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet] [DRN]

Обнаружение объектов
[OverFeat] [R-CNN] [Fast R-CNN] [Faster R-CNN] [DeepID-Net] [ R-FCN ] [ ION ] [ MultiPathNet ] [ NoC ] [ G-RMI ] [ TDM ] [ SSD ] [ DSSD ] [ YOLOv1 ] [ YOLOv2 / YOLO9000 ] [ YOLOv3 ] [ FPN ] [ RetinaNet ] [ DCN ]

Семантическая сегментация
[FCN] [DeconvNet] [DeepLabv1 & DeepLabv2] [SegNet] [ParseNet] [DilatedNet] [PSPNet] [DeepLabv3] [DRN]

Сегментация биомедицинских изображений
[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-FCN] [U-Net + ResNet] [ Многоканальный]

Сегментация экземпляра
[DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [FCIS]

Суперразрешение
[SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net] [DRCN] [DRRN] [LapSRN & MS-LapSRN]