Пирамиды признаков являются основным компонентом систем распознавания для обнаружения объектов в разных масштабах. Но недавние детекторы объектов глубокого обучения избегали пирамидальных представлений, отчасти потому, что они требуют больших вычислительных ресурсов и памяти.

Сеть функциональных пирамид использует внутреннюю многомасштабную пирамидальную иерархию глубоких сверточных сетей для построения пирамиды функций с минимальными дополнительными затратами. Архитектура сверху вниз с боковыми связями разработана для построения высокоуровневых карт семантических признаков во всех масштабах. Эта архитектура показывает значительное улучшение в качестве экстрактора общих функций в нескольких приложениях. Использование FPN в базовой системе Faster R-CNN обеспечивает самые современные результаты для одной модели в тесте обнаружения COCO, превосходя все существующие записи с одной моделью, включая результаты победителей конкурса COCO 2016.

Целью этой статьи является естественное использование пирамидальной формы иерархии функций ConvNet при создании пирамиды функций, которая имеет сильную семантику на всех уровнях. Для достижения этой цели мы полагаемся на архитектуру, которая сочетает в себе семантически сильные функции низкого разрешения с семантически слабыми функциями высокого разрешения посредством нисходящего пути и боковых связей (рис. 1 (d)). Результатом является
пирамида функций, которая имеет богатую семантику на всех уровнях и быстро строится из одного масштаба входного изображения. Другими словами, мы показываем, как создавать пирамиды признаков в сети, которые можно использовать для замены пирамид изображений с признаками, не жертвуя репрезентативной мощностью, скоростью или памятью.

В экспериментах по абляции мы обнаружили, что для предложений ограничивающей рамки FPN значительно увеличивает средний отзыв (AR) на 8,0 балла; для обнаружения объектов он улучшает среднюю точность (AP) в стиле COCO на 2,3 балла и AP в стиле PASCAL на 3,8 балла по сравнению с сильным базовым уровнем Faster R-CNN с одной шкалой в ResNets.

Архитектура

Цель состоит в том, чтобы использовать пирамидальную иерархию функций ConvNet, которая имеет семантику от низкого до высокого уровня, и построить пирамиду функций с семантикой высокого уровня повсюду. Получившаяся в результате сеть Feature Pyramid Network имеет общее назначение с акцентом на предложения скользящего окна (сеть предложений регионов, сокращенно RPN) и детекторы на основе регионов (Fast R-CNN).

Этот метод принимает одномасштабное изображение произвольного размера в качестве входных данных и выводит карты объектов пропорционального размера на нескольких уровнях полностью сверточным способом. Этот процесс не зависит от базовых сверточных архитектур. Построение пирамиды включает путь «снизу вверх», путь «сверху вниз» и боковые связи:

Восходящий путь

Путь «снизу вверх» представляет собой расчет с прямой связью магистральной сети ConvNet, которая вычисляет иерархию объектов, состоящую из карт объектов в нескольких масштабах с шагом масштабирования 2. Часто существует множество слоев, создающих выходные карты одинакового размера, и эти слои называются находиться на одном сетевом этапе. Для пирамиды функций для каждого этапа определяется один уровень пирамиды. Выходные данные последнего слоя каждого этапа выбираются в качестве эталонного набора карт объектов, которые будут обогащены для создания пирамиды. Такой выбор естественен, так как самый глубокий слой каждой стадии должен иметь самые сильные черты.

Путь «сверху вниз» и латеральные связи
Путь «сверху вниз» галлюцинирует объекты с более высоким разрешением за счет повышения пространственной дискретизации, более грубых, но семантически более сильных карт объектов с более высоких уровней пирамиды. Затем эти функции дополняются функциями восходящего пути через боковые соединения. Каждое боковое соединение объединяет карты объектов одного и того же пространственного размера из восходящего пути и пути сверху вниз. Восходящая карта признаков имеет семантику более низкого уровня, но ее активации более точно локализованы, поскольку она подвергалась меньшему количеству подвыборок.

Функциональные пирамидальные сети для RPN

RPN — это детектор объектов со скользящим окном, не зависящий от класса. В исходном дизайне RPN небольшая подсеть оценивается в плотных скользящих окнах 3 × 3 поверх одномасштабной сверточной карты признаков, выполняя бинарную классификацию объект / не объект и регрессию ограничивающей рамки.

Это реализуется с помощью сверточного слоя 3 × 3, за которым следуют две одноуровневые свертки 1 × 1 для классификации и регрессии, которые называются головкой сети. Критерий объект/необъект и цель регрессии ограничивающей рамки определяются относительно набора эталонных рамок, называемых якорями. Якоря имеют несколько предопределенных масштабов и соотношений сторон, чтобы охватывать объекты различной формы.

RPN адаптируется путем замены одномасштабной карты объектов на FPN. К каждому уровню нашей функциональной пирамиды прикреплена головка того же дизайна (3×3 конв. и две родственных конв. 1×1). Поскольку голова плотно скользит по всем точкам на всех уровнях пирамиды, нет необходимости иметь многомасштабные якоря на определенном уровне. Вместо этого мы назначаем якоря одного масштаба для каждого уровня.

Функциональные пирамидальные сети для быстрого R-CNN

Fast R-CNN — это детектор объектов на основе регионов, в котором объединение областей интереса (RoI) используется для извлечения признаков. Fast R-CNN чаще всего выполняется на карте объектов в одном масштабе. Чтобы использовать его с нашей FPN, нам нужно назначить RoI разных масштабов уровням пирамиды.

Пирамида признаков рассматривается так, как если бы она была создана из пирамиды изображений. Таким образом, мы можем адаптировать стратегию назначения детекторов на основе регионов в случае, когда они работают с пирамидами изображений. Формально мы назначаем RoI ширины w и высоты h (на входном изображении в сеть) уровню Pk нашей пирамиды признаков следующим образом:

k = [k0 + log2(√wh/224)].

По аналогии с системой Faster RCNN на основе ResNet мы устанавливаем k0 равным 4.

Мы прикрепляем заголовки предикторов (в Fast R-CNN заголовки являются специфичными для класса классификаторами и регрессорами ограничительной рамки) ко всем ROI всех уровней.

Бумага

Особенности пирамидальных сетей для обнаружения объектов 1612.03144

Просмотреть все темы этой серии здесь