Лучшие предложения по объектам, более точная классификация объектов, превосходит более быстрый R-CNN
В этой статье рассматривается CRAFT Китайской академии наук и Университета Цинхуа. В Faster R-CNN для генерации предложений используется региональная сеть предложений (RPN). Эти предложения после объединения ROI проходят через сеть для классификации. Однако выяснилось, что в Faster R-CNN есть основная проблема:
- При создании предложения все еще существует значительная часть фоновых регионов. Наличие множества фоновых образцов вызывает множество ложных срабатываний.
В CRAFT, как показано выше, после RPN добавляется еще один CNN, чтобы генерировать меньше предложений (например, 300 здесь). Затем выполняется классификация этих 300 предложений и выводится около 20 результатов обнаружения примитивов. Для каждого примитивного результата выполняется уточненное обнаружение объекта с использованием классификации «один против остальных». Он опубликован в CVPR за 2016 г. с более чем 50 цитированием. (Сик-Хо Цанг @ средний)
Контур
- Каскадное создание предложений
- Каскадная классификация объектов
- Исследование абляции
- Результаты
1. Каскадное создание предложений
1.1. Исходный RPN
- Идеальный генератор предложений должен генерировать как можно меньше предложений, охватывая почти все экземпляры объектов. Из-за потери разрешения, вызванной операцией объединения CNN и фиксированным соотношением сторон скользящего окна, RPN неэффективен при покрытии объектов с экстремальными масштабами или формами.
- Приведенные выше результаты представляют собой базовый RPN, основанный на VGG_M, обученном с использованием PASCAL VOC 2007 train + val и протестированном на тестовом наборе.
- Скорость отзыва по каждой категории объектов сильно различается. Объекты с экстремальным соотношением сторон и масштабом трудно обнаружить, например лодку и бутылку.
1.2. Предлагаемая каскадная структура
- Дополнительная классификационная сеть, идущая после RPN.
- Дополнительная сеть представляет собой сеть обнаружения 2-го класса, обозначенную на приведенном выше рисунке как FRCN net. Он использует выходные данные RPN в качестве обучающих данных.
- После обучения сети RPN 2000 примитивных предложений каждого обучающего образа используются в качестве обучающих данных для сети FRCN.
- Во время обучения положительная и отрицательная выборка основана на 0,7 IoU для положительных результатов и ниже 0,3 IoU для отрицательных соответственно.
- Есть два преимущества:
- 1) Во-первых, дополнительная сеть FRCN дополнительно улучшает качество предложений объектов и сжимает больше фоновых областей, благодаря чему предложения лучше соответствуют требованиям задачи.
- 2) Во-вторых, предложения из нескольких источников могут быть объединены в качестве входных данных сети FRCN, чтобы можно было использовать дополнительную информацию.
2. Каскадная классификация объектов.
2.1. Базовая линия Fast R-CNN
- Он слабо улавливает внутрикатегорийную дисперсию, поскольку «фоновый» класс обычно занимает большую часть обучающих выборок.
- Как показано на рисунке выше, ошибка неправильной классификации является серьезной проблемой при окончательном обнаружении.
2.2. Предлагаемая каскадная структура
- Чтобы решить проблему слишком большого количества ложных срабатываний, вызванных неправильной классификацией, классификатор «один против остальных» используется в качестве дополнительных двухклассовых потерь кросс-энтропии для каждой категории объектов, как показано выше.
- Каждый классификатор one-vs-rest видит предложения, относящиеся к одной конкретной категории объектов (также содержащие несколько ложных срабатываний), что делает его сосредоточенным на обнаружении внутрикатегорийной дисперсии.
- Стандартная сеть FRCN (FRCN-1) сначала обучается с использованием предложений объектов из каскадной структуры предложений.
- Затем другая сеть FRCN (FRCN-2) обучается на основе выходных данных FRCN-1, которые являются примитивными обнаружениями.
- Примитивные обнаружения, которые классифицируются как «фоновые», отбрасываются.
- Используется сумма N 2-классных перекрестных энтропийных потерь, где N равно количеству категорий объектов.
- Веса свертки FRCN-1 и FRCN-2 являются общими, поэтому карты характеристик полного изображения необходимо вычислять только один раз.
- Новые слои для получения 2 N оценок и 4 N целей регрессии ограничивающего прямоугольника инициализируются из гауссовского распределения.
- Таким образом, во время тестирования с 300 предложениями объектов в качестве входных данных FRCN-1 выводит около 20 примитивных обнаружений, каждое из которых имеет N оценок примитивов.
- Затем каждое обнаружение примитивов снова классифицируется с помощью FRCN-2, и полученные оценки (N категорий) умножаются на оценки примитивов (N категорий) в категории за категорией. способ получить окончательные N баллов за это обнаружение.
3. Исследование абляции
3.1. Генерация предложения
- Используется VGG-19, предварительно обученный на ILSVRC DET train + va1, и протестирован на val2.
- Предлагаемый FRCN с использованием положительной и отрицательной выборки на основе более 0,7 IoU и менее 0,3 IoU соответственно, имеет наивысшую частоту отзыва 92,37%, что выше, чем RPN, более чем на 2%.
- И предлагаемый FRCN, который использует 300 предложений, лучше, чем выборочный поиск (SS), который использует 2000 предложений.
- Предложения RPN не так хорошо локализованы по сравнению с восходящими методами (низкая частота отзыва при высоких порогах IoU).
- Использование более крупной сети не может помочь (RPN_L), потому что это вызвано фиксированными якорями.
- «Ours» сохраняет фиксированное количество предложений на изображение (то же, что и RPN), а «Ours_S» сохраняет предложения, оценки которых (результат каскадного классификатора FRCN) превышают фиксированный порог.
- Каскадный генератор предложений не только дополнительно устраняет фоновые предложения, но и обеспечивает лучшую локализацию, что помогает в обнаружении AP.
3.2. Классификация объектов
- «то же самое»: означает без точной настройки. Аналогичная карта с картой без каскадной классификации. Это похоже на двойной запуск FRCN-1, который представляет собой итеративную регрессию ограничивающего прямоугольника.
- «clf»: точная настройка дополнительных весов классификации «один против остальных». MAP улучшается до 66,3%.
- «fc + clf»: точная настройка всех слоев после последних сверточных слоев. MAP составляет 68,0%, что дает наилучшие результаты.
- «conv + fc + clf»: это похоже на полную тренировку представления новой функции, изучение другого классификатора.
- Если исходная классификация заменяется методом «один против остальных», то MAP станет хуже, которая составила только 46,1%.
- Если используется каскадная классификация, MAP улучшается до 68,0%.
4. Результаты
4.1. PASCAL VOC 2007 и 2012
- FRCN: Fast R-CNN.
- RPN_un: Более быстрый R-CNN с неразделенными CNN между сетью предложения и сетью классификатора.
- RPN: Быстрее R-CNN.
- CRAFT: с каскадной сетью предложений это лучше, чем RPN_un в VOC 2007, но хуже, чем RPN. С сетью каскадных классификаторов он лучше, чем Faster R-CNN как в VOC 2007, так и в VOC 2012.
4.2. Задача обнаружения объектов ILSVRC
- 0.6 NMS: более строгая NMS, лучше, чем базовая.
- Повторная оценка. Также помогает повторная оценка каждого предложения с учетом обеих оценок на двух этапах каскадной структуры.
- + DeepBox: предложения Fusion DeepBox с предложениями RPN, поскольку вход слияния в сеть FRCN повышает коэффициент отзыва до более 94%. Лучше, чем + SS.
- Здесь используется модель GoogLeNet с пакетной нормализацией.
- В качестве обучающего набора используются ILSVRC 2013train + 2014train + val1.
- С каскадной сетью предложений достигается 47.0% MAP, что уже превосходит результат ансамбля предыдущих современных систем, таких как Superpixel Labeling и DeepID-Net.
- Кроме того, с сетью каскадных классификаторов, MAP 48,5%, абсолютный прирост составляет 1,5%.
Благодаря тому, что каскадная сеть применяется как к региональной сети предложений, так и к сети классификаторов, точность обнаружения повышается.
Ссылка
[2016 CVPR] [CRAFT]
СОЗДАВАЙТЕ объекты из изображений
Мои предыдущие обзоры
Классификация изображений
[LeNet] [AlexNet] [ZFNet] [VGGNet] [Шоссе] [SPPNet] [PReLU-Net] [STN] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Inception-v3] [Inception-v4] [Xception] [ MobileNetV1] [ResNet] [Pre-Activation ResNet] [RiR] [RoR] [Стохастическая глубина] [WRN] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet] [DRN]
Обнаружение объектов
[OverFeat] [R-CNN] [Fast R-CNN] [Faster R-CNN] [DeepID-Net] [ R-FCN ] [ ION ] [ MultiPathNet ] [ NoC ] [ G-RMI ] [ TDM ] [ SSD ] [ DSSD ] [ YOLOv1 ] [ YOLOv2 / YOLO9000 ] [ YOLOv3 ] [ FPN ] [ RetinaNet ] [ DCN ]
Семантическая сегментация
[FCN] [DeconvNet] [DeepLabv1 & DeepLabv2] [SegNet] [ParseNet] [DilatedNet] [PSPNet] [DeepLabv3] [DRN]
Сегментация биомедицинских изображений
[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-FCN] [U-Net + ResNet] [ Многоканальный]
Сегментация экземпляра
[DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [FCIS]
Суперразрешение
[SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net] [DRCN] [DRRN] [LapSRN & MS-LapSRN]