Понимание нового алгоритма для выполнения эффективного многомасштабного обучения в задачах визуального распознавания на уровне экземпляра.
Люди склонны обращать внимание на объекты на фиксированном расстоянии и фиксированном размере. Например, когда мы фокусируемся на близлежащих объектах, удаленные объекты становятся размытыми. Мы обрабатываем только небольшое поле зрения в любой момент времени и адаптивно игнорируем остающийся визуальный контент в изображении. Однако компьютерные алгоритмы, разработанные для задач визуального распознавания на уровне экземпляра, таких как обнаружение объектов, отходят от этого естественного способа обработки визуальной информации.
Оглавление
- Вступление
- Фон
- Зачем приспосабливаться к СНАЙПЕРУ во время тренировок?
- Основные компоненты SNIPER
- Сравнение с последними достижениями
- Заключение
- использованная литература
1. Введение
- Большой разброс экземпляров объектов, и особенно проблема обнаружения очень маленьких объектов, является одним из факторов, определяющих разницу в производительности.
- Это изменение масштаба, с которым должен работать детектор, огромно и представляет собой серьезную проблему для свойств масштабной инвариантности сверточных нейронных сетей.
- В [1] авторы представляют SNIPER, новый алгоритм обучения для выполнения эффективного многомасштабного обучения в задачах визуального распознавания на уровне экземпляра.
- SNIPER приближает обучение задач распознавания на уровне экземпляра, таких как обнаружение объектов, к протоколу классификации изображений и предполагает, что общепринятое правило, согласно которому важно обучаться на изображениях с высоким разрешением для задач визуального распознавания на уровне экземпляра, может быть неверным.
2. Справочная информация
- Алгоритмы обнаружения объектов, основанные на глубоком обучении, в основном произошли от детектора R-CNN, который изменял размеры предложений объектов до канонического изображения размером 224x224 и классифицировал с помощью CNN.
- Вывод и обнаружение из нескольких шкал объединяются путем выбора функций из пары смежных шкал, более близких к разрешению предварительно обученной сети в RCNN.
- Модель Fast-RCNN с тех пор стала де-факто подходом для классификации предложений по регионам, поскольку она быстрее, улавливает больше контекста и увеличивает / уменьшает каждое предложение на изображении.
- SNIP также обучается почти всем пикселям пирамиды изображений (например, Fast-RCNN), хотя градиенты от экстремальных разрешений не учитываются.
- SNIPER доводит эту процедуру кадрирования до предельного уровня, отбирая 512 пикселей обрезков из трех масштабов пирамиды изображений. При экстремальных масштабах (например, 3x) SNIPER наблюдает менее одной десятой исходного содержания, представленного в изображение!
3. Зачем приспосабливаться к СНАЙПЕРУ во время тренировок?
- Поскольку каждый пиксель обрабатывается в каждом масштабе, многомасштабный подход к обучению для обработки визуальной информации значительно увеличивает время обучения.
Если это так, возникает интуитивный вопрос: нужно ли нам обрабатывать все изображение с высоким разрешением? Разве не достаточно сэмплирования гораздо меньшей RoI (чипа) вокруг небольших объектов при таком разрешении?
С другой стороны, если изображение уже имеет высокое разрешение и объекты на нем также имеют большой размер, есть ли какие-то преимущества в повышении дискретизации этого изображения?
- В то время как игнорирование значительных частей изображения сэкономит вычисления, меньший чип также не будет иметь контекста, необходимого для распознавания. Значительная часть фона также будет проигнорирована при более высоком разрешении.
- Таким образом, существует компромисс между вычислениями, контекстом и отрицательным анализом при ускорении многомасштабного обучения.
- Нормализация масштаба для пирамид изображений с эффективной передискретизацией (SNIPER), которая адаптивно производит выборку чипов из нескольких масштабов пирамиды изображения в зависимости от содержимого изображения. Он отбирает положительные микросхемы, обусловленные достоверными примерами, и отрицательные микросхемы, основанные на предложениях, созданных региональной сетью предложений.
4. Основные компоненты SNIPER
4.1 Генерация чипа
- SNIPER генерирует чипы Ci в нескольких масштабах изображения. Для каждого масштаба изображение сначала изменяется по ширине (Wi) и высоте (Hi).
- На этом холсте пиксельные чипы KxK размещаются через равные интервалы d пикселей. Это приводит к двумерному массиву чипов в каждом масштабе.
4.2 Положительный выбор чипа
- Для каждой шкалы существует желаемый диапазон, который определяет, какие блоки наземной достоверности участвуют в обучении по каждой шкале.
- Затем чипы жадно отбираются, чтобы охватить максимальное количество допустимых наземных блоков истинности. Блок наземной истины считается закрытым, если он полностью заключен внутри микросхемы.
- Истинные экземпляры, которые частично перекрываются с микросхемой, обрезаются. Все обрезанные прямоугольники наземной достоверности остаются в микросхеме и используются для присвоения меток (раздел 4.3).
- Поскольку размер кадрирования намного меньше разрешения изображения, SNIPER не обрабатывает большую часть фона с высоким разрешением. Это приводит к значительной экономии затрат на вычисления и памяти при обработке изображений с высоким разрешением.
4.3 Выбор отрицательного чипа
- Хотя положительные фишки охватывают все положительные примеры, значительная часть фона ими не покрывается. Неправильная классификация фона увеличивает количество ложных срабатываний.
- В [1] авторы утверждают, что значительную часть фона легко классифицировать, и, следовательно, можно избежать выполнения вычислений в этих областях.
- Для отрицательного выбора фишек для каждой шкалы сначала удаляются все предложения, которые были включены в положительный выбор фишек.
- Затем для каждой шкалы они жадно отбирают все фишки, которые охватывают как минимум M предложений в диапазоне. Это создает набор негативных фишек для каждого масштаба изображения.
- Как показано, SNIPER обрабатывает только те области, которые могут содержать ложные срабатывания, что сокращает время обработки.
4.4 Присвоение ярлыка
- Во время обучения сгенерированным предложениям присваиваются метки и целевые ограничивающие прямоугольники на основе всех наземных прямоугольников, которые присутствуют внутри чипа.
- Предложения, не попадающие в диапазон, во время обучения игнорируются. Таким образом, обрезанный большой прямоугольник с достоверной информацией может создать правильное предложение небольшого размера.
- Как и в случае Fast-RCNN, авторы отмечают любое предложение, имеющее перекрытие более 0,5, с прямоугольником достоверности как положительное и назначают цели ограничивающего прямоугольника для предложения.
Подробные сведения о настройке эксперимента и анализе отзыва см. В разделе 4 «Подробные сведения об эксперименте» в [1].
5. Сравнение с последними достижениями.
- Трудно сравнивать разные детекторы, такие как ResNet, ResNext и Xception, поскольку они различаются по архитектуре магистрали.
- Поэтому авторы сравнивают свои результаты с SNIP, недавним методом обучения детекторов объектов на пирамиде изображений.
- В то время как SNIP обрабатывает почти всю пирамиду изображений, SNIPER, с другой стороны, снижает вычислительные затраты, пропуская простые области.
- Более того, поскольку SNIPER работает с входом с более низким разрешением, он уменьшает объем памяти. Это позволяет нам увеличить размер пакета и, в отличие от SNIP, мы можем извлечь выгоду из нормализации пакета во время обучения.
- При пакетной нормализации SNIPER значительно превосходит SNIP по всем показателям.
6. Заключение
- В [1] авторы представили алгоритм для эффективного многомасштабного обучения, который выбирает микросхемы низкого разрешения из многомасштабной пирамиды изображений, чтобы ускорить многомасштабное обучение в 3 раза.
- При этом SNIPER не снизил производительность детектора благодаря эффективным методам отбора проб для положительных и отрицательных микросхем.
- Поскольку SNIPER работает на повторно дискретизированных микросхемах с низким разрешением, его можно обучить с большим размером пакета на одном графическом процессоре, что приближает его к протоколу для классификации обучающих изображений.
- Это контрастирует с обычной практикой обучения на изображениях с высоким разрешением для задач распознавания на уровне экземпляра.
7. Ссылки
[1] Сингх, Бхарат, Махьяр Наджиби и Ларри С. Дэвис. «Снайпер: эффективное разностороннее обучение». Достижения в области нейронных систем обработки информации. 2018.
[2] Сингх, Бхарат и Ларри С. Дэвис. «Анализ масштабной инвариантности при обнаружении объектов». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2018.