Эта статья является частью серии Academic Alibaba и взята из статьи под названием Предварительный просмотр многомасштабного детектора объектов, написанной Zhihang Fu, Zhongming Jin, Guo-Jun Qi, Chen. Shen, Rongxin Jiang, Yaowu Chen и Xian-Sheng Hua, принятые ACM MM 2018. Полностью статью можно прочитать здесь.

В области обнаружения объектов ложное срабатывание — ошибка, при которой объект или атрибут неправильно указывается как присутствующий на изображении — может отрицательно сказаться на общей точности процесса обнаружения объекта. Методы обнаружения объектов, использующие сверточные нейронные сети (CNN), значительно улучшились за последние годы, но они по-прежнему часто терпят неудачу, когда дело доходит до работы с изображениями, содержащими объекты разного размера.

Чтобы улучшить обнаружение объектов в разных масштабах и размерах, ряд распространенных детекторов на основе CNN, включая SSD, MS-CNN и Hierarchical Gated Deep Network, стали использовать различные уровни функций. Большое разрешение низкоуровневых функций позволяет использовать небольшие скользящие окна, облегчая обнаружение небольших объектов.

Однако признаки низкого уровня неадекватны, так как они обладают слабыми семантическими возможностями и небольшими рецептивными полями. Это, в свою очередь, приводит к тому, что контекстуальная информация — важный элемент обнаружения объектов, особенно мелких объектов, — часто упускается. Отсутствие контекстной информации обычно приводит к плохой работе многомасштабных детекторов. Более того, из-за большого разрешения низкоуровневых функций количество априорных значений мелких объектов огромно. Это означает, что в многомасштабных детекторах большинство ложных срабатываний, как правило, обнаруживаются на малых априорных значениях.

Решение Alibaba

Чтобы бороться с этим, команда Alibaba предложила новый блок предварительного просмотра, который можно легко встроить в любой многомасштабный детектор. Команда также сформулировала новую стратегию сопоставления, которая выбирает положительные и отрицательные обучающие примеры для блока предварительного просмотра. Облегченный блок предварительного просмотра просматривает вероятность объектности для потенциальной области регрессии каждого предыдущего блока, используя более сильные функции с большими рецептивными полями и большим количеством контекстной информации для более точных прогнозов.

Alibaba обнаружила, что независимые прогнозы из разных слоев признаков в одном и том же регионе способствуют снижению распространенности ложных срабатываний. Что отличает блок предпросмотра Alibaba от остальных, так это то, что он отделен от задачи обнаружения, используя более глубокие слои функций, которые имеют достаточно большие рецептивные поля, чтобы предварительно просмотреть, действительно ли в регионах есть объекты. Типа ложных срабатываний, показанных на рис. 1, легко избежать, если принять во внимание более широкое изображение.

Результаты

Чтобы доказать превосходство предложенного ими метода, команда Alibaba провела обширные эксперименты с эталонными тестами Pascal VOC и KITTI, и результаты показали, что блок предварительного просмотра способствовал постоянному улучшению всех протестированных многомасштабных детекторов. Кроме того, блок предварительного просмотра невелик и практически не влияет на эффекты в реальном времени.

Рис. 3 иллюстрирует значительное снижение количества ложных срабатываний малого размера после встраивания предложенного блока предпросмотра в многомасштабный детектор.

На рисунке ниже визуализируются прогнозы объектности и классификации для тех же изображений. Он наглядно демонстрирует, как блок предварительного просмотра подавляет ложные срабатывания и повышает производительность обнаружения объектов.

Блок предварительного просмотра Alibaba является универсальным и может быть легко реализован в многомасштабных детекторах, таких как SSD, RFBNet и MS-CNN.

Полностью статью можно прочитать здесь.

Алибаба Тех

Подробная информация о новейших технологиях Alibaba из первых рук → Facebook: Alibaba Tech». Твиттер: «AlibabaTech».