СНАЙПЕР: эффективное многомасштабное обучение

Понимание нового алгоритма для выполнения эффективного многомасштабного обучения в задачах визуального распознавания на уровне экземпляра.

Люди склонны обращать внимание на объекты на фиксированном расстоянии и фиксированном размере. Например, когда мы фокусируемся на близлежащих объектах, удаленные объекты становятся размытыми. Мы обрабатываем только небольшое поле зрения в любой момент времени и адаптивно игнорируем остающийся визуальный контент в изображении. Однако компьютерные алгоритмы, разработанные для задач визуального распознавания на уровне экземпляра, таких как обнаружение объектов, отходят от этого естественного способа обработки визуальной информации.

Вступление
Фон
Зачем приспосабливаться к СНАЙПЕРУ во время тренировок?
Основные компоненты SNIPER
Сравнение с последними достижениями
Заключение
использованная литература

1. Введение

Большой разброс экземпляров объектов, и особенно проблема обнаружения очень маленьких объектов, является одним из факторов, определяющих разницу в производительности.
Это изменение масштаба, с которым должен работать детектор, огромно и представляет собой серьезную проблему для свойств масштабной инвариантности сверточных нейронных сетей.
В [1] авторы представляют SNIPER, новый алгоритм обучения для выполнения эффективного многомасштабного обучения в задачах визуального распознавания на уровне экземпляра.
SNIPER приближает обучение задач распознавания на уровне экземпляра, таких как обнаружение объектов, к протоколу классификации изображений и предполагает, что общепринятое правило, согласно которому важно обучаться на изображениях с высоким разрешением для задач визуального распознавания на уровне экземпляра, может быть неверным.

2. Справочная информация

Алгоритмы обнаружения объектов, основанные на глубоком обучении, в основном произошли от детектора R-CNN, который изменял размеры предложений объектов до канонического изображения размером 224x224 и классифицировал с помощью CNN.
Вывод и обнаружение из нескольких шкал объединяются путем выбора функций из пары смежных шкал, более близких к разрешению предварительно обученной сети в RCNN.
Модель Fast-RCNN с тех пор стала де-факто подходом для классификации предложений по регионам, поскольку она быстрее, улавливает больше контекста и увеличивает / уменьшает каждое предложение на изображении.
SNIP также обучается почти всем пикселям пирамиды изображений (например, Fast-RCNN), хотя градиенты от экстремальных разрешений не учитываются.
SNIPER доводит эту процедуру кадрирования до предельного уровня, отбирая 512 пикселей обрезков из трех масштабов пирамиды изображений. При экстремальных масштабах (например, 3x) SNIPER наблюдает менее одной десятой исходного содержания, представленного в изображение!

3. Зачем приспосабливаться к СНАЙПЕРУ во время тренировок?

Поскольку каждый пиксель обрабатывается в каждом масштабе, многомасштабный подход к обучению для обработки визуальной информации значительно увеличивает время обучения.

Если это так, возникает интуитивный вопрос: нужно ли нам обрабатывать все изображение с высоким разрешением? Разве не достаточно сэмплирования гораздо меньшей RoI (чипа) вокруг небольших объектов при таком разрешении?

С другой стороны, если изображение уже имеет высокое разрешение и объекты на нем также имеют большой размер, есть ли какие-то преимущества в повышении дискретизации этого изображения?

В то время как игнорирование значительных частей изображения сэкономит вычисления, меньший чип также не будет иметь контекста, необходимого для распознавания. Значительная часть фона также будет проигнорирована при более высоком разрешении.
Таким образом, существует компромисс между вычислениями, контекстом и отрицательным анализом при ускорении многомасштабного обучения.
Нормализация масштаба для пирамид изображений с эффективной передискретизацией (SNIPER), которая адаптивно производит выборку чипов из нескольких масштабов пирамиды изображения в зависимости от содержимого изображения. Он отбирает положительные микросхемы, обусловленные достоверными примерами, и отрицательные микросхемы, основанные на предложениях, созданных региональной сетью предложений.

4. Основные компоненты SNIPER

4.1 Генерация чипа

SNIPER генерирует чипы Ci в нескольких масштабах изображения. Для каждого масштаба изображение сначала изменяется по ширине (Wi) и высоте (Hi).
На этом холсте пиксельные чипы KxK размещаются через равные интервалы d пикселей. Это приводит к двумерному массиву чипов в каждом масштабе.

4.2 Положительный выбор чипа

Для каждой шкалы существует желаемый диапазон, который определяет, какие блоки наземной достоверности участвуют в обучении по каждой шкале.
Затем чипы жадно отбираются, чтобы охватить максимальное количество допустимых наземных блоков истинности. Блок наземной истины считается закрытым, если он полностью заключен внутри микросхемы.
Истинные экземпляры, которые частично перекрываются с микросхемой, обрезаются. Все обрезанные прямоугольники наземной достоверности остаются в микросхеме и используются для присвоения меток (раздел 4.3).
Поскольку размер кадрирования намного меньше разрешения изображения, SNIPER не обрабатывает большую часть фона с высоким разрешением. Это приводит к значительной экономии затрат на вычисления и памяти при обработке изображений с высоким разрешением.

4.3 Выбор отрицательного чипа

Хотя положительные фишки охватывают все положительные примеры, значительная часть фона ими не покрывается. Неправильная классификация фона увеличивает количество ложных срабатываний.
В [1] авторы утверждают, что значительную часть фона легко классифицировать, и, следовательно, можно избежать выполнения вычислений в этих областях.
Для отрицательного выбора фишек для каждой шкалы сначала удаляются все предложения, которые были включены в положительный выбор фишек.
Затем для каждой шкалы они жадно отбирают все фишки, которые охватывают как минимум M предложений в диапазоне. Это создает набор негативных фишек для каждого масштаба изображения.
Как показано, SNIPER обрабатывает только те области, которые могут содержать ложные срабатывания, что сокращает время обработки.

4.4 Присвоение ярлыка

Во время обучения сгенерированным предложениям присваиваются метки и целевые ограничивающие прямоугольники на основе всех наземных прямоугольников, которые присутствуют внутри чипа.
Предложения, не попадающие в диапазон, во время обучения игнорируются. Таким образом, обрезанный большой прямоугольник с достоверной информацией может создать правильное предложение небольшого размера.
Как и в случае Fast-RCNN, авторы отмечают любое предложение, имеющее перекрытие более 0,5, с прямоугольником достоверности как положительное и назначают цели ограничивающего прямоугольника для предложения.

Подробные сведения о настройке эксперимента и анализе отзыва см. В разделе 4 «Подробные сведения об эксперименте» в [1].

5. Сравнение с последними достижениями.

Трудно сравнивать разные детекторы, такие как ResNet, ResNext и Xception, поскольку они различаются по архитектуре магистрали.
Поэтому авторы сравнивают свои результаты с SNIP, недавним методом обучения детекторов объектов на пирамиде изображений.
В то время как SNIP обрабатывает почти всю пирамиду изображений, SNIPER, с другой стороны, снижает вычислительные затраты, пропуская простые области.
Более того, поскольку SNIPER работает с входом с более низким разрешением, он уменьшает объем памяти. Это позволяет нам увеличить размер пакета и, в отличие от SNIP, мы можем извлечь выгоду из нормализации пакета во время обучения.
При пакетной нормализации SNIPER значительно превосходит SNIP по всем показателям.

6. Заключение

В [1] авторы представили алгоритм для эффективного многомасштабного обучения, который выбирает микросхемы низкого разрешения из многомасштабной пирамиды изображений, чтобы ускорить многомасштабное обучение в 3 раза.
При этом SNIPER не снизил производительность детектора благодаря эффективным методам отбора проб для положительных и отрицательных микросхем.
Поскольку SNIPER работает на повторно дискретизированных микросхемах с низким разрешением, его можно обучить с большим размером пакета на одном графическом процессоре, что приближает его к протоколу для классификации обучающих изображений.
Это контрастирует с обычной практикой обучения на изображениях с высоким разрешением для задач распознавания на уровне экземпляра.

7. Ссылки

[1] Сингх, Бхарат, Махьяр Наджиби и Ларри С. Дэвис. «Снайпер: эффективное разностороннее обучение». Достижения в области нейронных систем обработки информации. 2018.

[2] Сингх, Бхарат и Ларри С. Дэвис. «Анализ масштабной инвариантности при обнаружении объектов». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2018.