Yolo V4 Обнаружение объектов

Как обнаружение объектов Yolo V4 обеспечивает более высокую MAP и более короткое время логического вывода

Расширенные возможности Yolo v4

Yolo v4 имеет более высокую скорость вывода для детектора объектов в производственных системах.
Оптимизация для параллельных вычислений
Yolo v4 - это эффективная и мощная модель обнаружения объектов, использующая один графический процессор для быстрой доставки точного обнаружения объектов.

Модели детекторов объектов состоят из

Предварительно обученный Backbone
Шея
Заголовок, который используется для прогнозирования классов и ограничивающих рамок объектов.

Костяк детектора объектов может быть предварительно обученной нейронной сетью.

Пример: ImageNet, VGG16, ResNet-50, SpineNet, EfficientNet-B0 / B7, CSPResNeXt50 или CSPDarknet53 или ShuffleNet, работающие на ЦП.

Модели детекторов объектов вставляют дополнительные слои между позвоночником и головой, которые называются шейкой детектора объектов. Слои шеи собирают карты объектов с разных этапов и состоят из нескольких путей снизу вверх и нескольких путей сверху вниз.

Примеры: FPN, сеть агрегации путей (PAN), BiFPN и NAS-FPN

Головка детектора объектов предсказывает классы и ограничивающие рамки объектов и может быть одноступенчатым или двухступенчатым детектором

Одноступенчатые детекторы имеют простую, эффективную и элегантную архитектуру, а выходными данными сети являются вероятности классификации и смещения ящиков в каждой пространственной позиции.

Пример: YOLO, SSD, RetinaNet, CenterNet, CenterNet и т. д.

Двухступенчатые детекторы имеют более сложный конвейер. На первом этапе отфильтровываются регионы, которые с высокой вероятностью содержат объект, из всего изображения с сетью предложений регионов. Эти RPN затем передаются на второй этап, где региональная сверточная сеть (R-CNN) получает оценку классификации и пространственные смещения.

Примеры: R-CNN, Fast R-CNN, Faster R-CNN, R-FCN и Libra R-CNN

Как одноступенчатые, так и двухкаскадные извещатели могут быть сделаны безякорными извещателями объектов.

YOLOv4 состоит из:

Магистраль: CSPDarknet53
Шея: SPP, PAN
Руководитель: YOLOv3

Пакет бесплатных подарков

Это метод, который только изменяет стратегию обучения или только увеличивает стоимость обучения.

Некоторые из этих обучающих стратегий в Bag of Freebies:

Увеличение данных увеличивает вариативность входных изображений. Он использует фотометрические искажения, такие как яркость, контраст, оттенок, насыщенность и шум изображения, и геометрические искажения, такие как случайное масштабирование, обрезка, отражение и поворот. Yolo v4 использует метод увеличения данных Mosaic, который смешивает 4 обучающих изображения. Такое увеличение данных помогает модели локализовать различные типы изображений в разных частях кадра.

Самостоятельное обучение (SAT) - это новый метод увеличения объема данных, который работает в два этапа: вперед-назад. Этап 1 выполняет враждебную атаку на себя, изменяя исходные изображения, чтобы создать обман, что на изображении нет желаемого объекта. На втором этапе нейронная сеть обучается обнаруживать объект на этом измененном изображении обычным способом.
Решение проблемы семантического распределения с дисбалансом набора данных с помощью focal loss. Функция фокальных потерь - это динамически масштабируемые кросс-энтропийные потери, где коэффициент масштабирования уменьшается до нуля по мере увеличения уверенности в правильном классе. Несбалансированность классов вызывает две проблемы для одноступенчатого детектора объектов. Первая проблема заключается в том, что (1) обучение неэффективно, поскольку большинство мест - это легкие отрицательные моменты, которые не вносят полезного обучающего сигнала; (2) простые отрицания могут затруднить обучение и привести к вырожденным моделям. Потеря фокуса - это термин, модулирующий потерю кросс-энтропии, чтобы сосредоточить обучение на жестких отрицательных примерах.
Извлечение знаний для разработки сети уточнения этикеток. Кистилляция знаний сжимает большую предварительно обученную модель (учитель) в маленькую (студенческую) модель. В этом методе знания передаются от модели учителя к модели ученика путем минимизации функции потерь, направленной на сопоставление смягченных логитов учителя и меток истинности. Логиты смягчаются применением функции масштабирования в softmax, которая эффективно сглаживает распределение вероятностей и выявляет межклассовые отношения, усвоенные учителем.
Регрессия ограничивающего прямоугольника (BBox) - важный шаг в обнаружении объекта. Традиционные детекторы объектов используют потерю L¹ Norm для регрессии ограничивающего прямоугольника, обрабатывая эти координаты ограничивающего прямоугольника как независимую переменную и не учитывая целостность объекта. Yolo v4 рекомендует использовать потерю долговых обязательств для регрессии ограничивающего прямоугольника, например Distance IoU или функцию полной потери IoU, что приводит к более быстрой сходимости и лучшей производительности.

Сумка со специальными предложениями

Пакет специальных предложений - это метод постобработки, который увеличивает стоимость вывода лишь на небольшую величину, но значительно повышает точность обнаружения объектов.

Увеличение восприимчивого поля с использованием объединения пространственных пирамид (SPP), которое интегрирует SPM (сопоставление пространственных пирамид) в CNN и использует операцию максимального объединения
Механизм внимания, используемый при обнаружении объектов, - это внимание по каналам с использованием сжатия и возбуждения (SE) и точечное внимание с использованием модуля пространственного внимания (SAM). SM улучшает взаимозависимости каналов практически без дополнительных вычислительных затрат.
Расширение возможностей интеграции функций с помощью пропуска соединений и гиперстолбцов позволяет интегрировать физические функции низкого уровня с семантическими функциями высокого уровня.

Функции активации в YOLO v4

Поскольку функции активации играют решающую роль в динамике производительности и обучения в нейронных сетях. Функции активации - это нелинейные точечные функции, ответственные за привнесение нелинейности в линейно преобразованный вход на уровне нейронной сети.

ReLU6 и Hard-Swish специально разработаны для сетей квантования. И Swish, и Mish - это непрерывно дифференцируемые функции активации.

Yolo V4 использует Mish, новую саморегулирующуюся немонотонную функцию активации, основанную на свойстве самозащиты Swish.

Mish имеет тенденцию согласовывать или улучшать производительность архитектур нейронных сетей по сравнению с Swish, ReLU и Leaky ReLU в различных задачах компьютерного зрения.

Миш устраняет феномен Dying ReLU, что помогает улучшить выразительность и поток информации. Миш избегает насыщения, которое обычно приводит к резкому замедлению обучения из-за почти нулевых градиентов.

Yolo V4 Архитектура

Оптимальный алгоритм обнаружения объектов требует следующих функций

Увеличенный размер входной сети для обнаружения нескольких объектов небольшого размера
Больше слоев для более высокого восприимчивого поля позволит просматривать весь объект, просматривать контекст вокруг объекта и увеличивает количество связей между точкой изображения и окончательной активацией.
Больше параметров - для большей способности модели обнаруживать несколько объектов разного размера на одном изображении.

Нейронная сеть CSPDarknet53 является оптимальной базовой моделью для детектора с 29 сверточными слоями 3 × 3, принимающим полем 725 × 725 и параметрами 27,6 M.

Добавление блока SPP поверх CSPDarknet53 значительно увеличивает восприимчивое поле для разделения наиболее важных функций контекста и почти не вызывает снижения скорости работы сети.

Yolo V2 использует DropBlock, простую технику регуляризации, похожую на dropout. DropBlock удаляет смежные регионы из слоя карты объектов вместо удаления независимых случайных единиц в методе исключения.

Добавление PANet в качестве основы модели обнаружения объектов Yolo v4 для агрегирования параметров с разных уровней магистрали для разных уровней обнаружения

Дополнительные улучшения в YoloV4

Yolov4 также использует Генетический алгоритм для выбора оптимального гиперпараметра во время обучения сети в первые 10% периодов времени.
Перекрестная мини-пакетная нормализация собирает статистику внутри всего пакета вместо сбора статистики внутри одного мини-пакета, таким образом эффективно агрегируя статистику по нескольким итерациям обучения.

Производительность YoloV4

YOLOv4 работает в два раза быстрее, чем EfficientDet, с сопоставимой производительностью. Повышает AP и FPS YOLOv3 на 10% и 12% соответственно. YOLOv4 превосходит самые быстрые и точные детекторы как по скорости, так и по точности.

Ссылки:

YOLOv4: Оптимальная скорость и точность обнаружения объектов

Потеря расстояния-IoU: более быстрое и лучшее обучение для регрессии ограничивающего прямоугольника

Потеря фокусировки при обнаружении плотных объектов

Миш: саморегулирующаяся немонотонная функция активации

DropBlock: метод регуляризации сверточных сетей

Получение знаний в нейронной сети

Https://www.sciencedirect.com/topics/engineering/genetic-algorithm