CAMOLO — Враждебный камуфляж для обнаружения объектов над головой

В этом блоге мы исследуем эффективность и недостатки противоборствующей маскировки в контексте изображений сверху. Примечание. Этот блог является кратким изложением нашей статьи ArXiv.

1. Резюме

Хотя в ряде недавних работ была продемонстрирована способность надежно обманывать классификаторы глубокого обучения и детекторы объектов с помощью враждебных исправлений (дальнейшее обсуждение см. в нашем предыдущем блоге [ссылка]), большая часть этой работы была выполнена на относительно однородных наборах данных и только на одном класс объектов. В этой работе мы используем набор данных VisDrone, который имеет большой диапазон перспектив и размеров объектов. Мы исследуем четыре разных класса объектов: автобус, автомобиль, грузовик, фургон. Мы создаем библиотеку из 24 враждебных патчей, чтобы замаскировать эти объекты, и добавляем в наши патчи переменную прозрачности. Полупрозрачность (или альфа-значение) пластырей сильно коррелирует с их эффективностью. Кроме того, мы показываем, что хотя враждебные патчи могут обмануть детекторы объектов, присутствие таких патчей часто легко обнаружить, при этом патчи обнаруживаются в среднем на 24% лучше, чем объекты, которые патчи должны были скрывать. Это поднимает вопрос о том, действительно ли такие нашивки представляют собой камуфляж. Исходный код доступен по адресу https://github.com/IQTLabs/camolo, а полную информацию можно найти в нашей статье arXiv.

2. Набор данных VisDrone

Для этого исследования мы используем набор данных VisDrone, в частности, часть VisDrone для обнаружения объектов (VisDrone2019-DET). Этот набор данных включает 6471 изображение, полученное с дронов в обучающем наборе, и 1610 изображений в тестовом наборе с аннотациями ограничительной рамки для интересующих объектов.

Высота над уровнем моря, угол обзора и условия освещения сильно различаются, что усложняет анализ изображений (см. рис. 1). 353 550 меток ограничительной рамки в обучающем наборе, как правило, относительно малы (средняя протяженность 34 пикселя), хотя размер сильно варьируется (стандартное отклонение 44 пикселя), что связано с разницей в высоте и угле обзора. платформа для дронов. Мы разбиваем обучающие изображения VisDrone на окна размером 416×416 пикселей, чтобы их было проще использовать в алгоритмах обнаружения объектов. В этом исследовании мы сосредоточимся на четырех классах объектов (см. рис. 2): автобус, легковой автомобиль, грузовик и фургон.

3. Детектор транспортных средств

Мы используем фреймворк обнаружения объектов YOLTv4 для обучения детектора транспортных средств 4-го класса. Мы используем файл конфигурации с выходной картой признаков 26 × 26 для улучшения обнаружения мелких объектов. Прогнозы с помощью обученной модели показаны на рисунке 3. Мы оцениваем производительность модели обнаружения YOLT с 1610 изображениями в тестовом наборе VisDrone, установив истинное положительное значение в качестве прогноза правильного класса с IOU ≥ 0,5. Баллы показаны в таблице 1; мы сообщаем об ошибках 1σ, рассчитанных с помощью бутстрэппинга.

4. Враждебные патчи

Для обучения состязательного патча мы разрабатываем кодовую базу Camolo, которая является модификацией кодовой базы adversarial-yolo. Кодовая база adversarial-yolo принимает обученную модель и помеченные изображения в качестве входных данных и пытается создать патч, который при наложении на интересующие объекты обманет детектор. Camolo производит ряд модификаций:

Повышенная гибкость с входными переменными (например,. целевой размер исправления)
Используйте с более поздними версиями YOLO
Разрешить патчам быть полупрозрачными

Наиболее существенное изменение (№ 3) — это метод наложения патчей в соответствии с выбранным значением альфа-канала, которое определяет, насколько прозрачным будет патч. Мы предполагаем, что полупрозрачный пластырь может помочь замаскировать сами пятна. Предыдущие исследования просто перезаписывали существующие пиксели изображения нужным патчем. Мы комбинируем патч и исходные пиксели изображения в соответствии с желаемым значением альфа-канала патча (альфа = 1 соответствует непрозрачному патчу, а альфа = 0 дает невидимый патч). На Рисунке 4 мы накладываем образец враждебной заплаты на изображение VisDrone как стандартным полностью непрозрачным, так и полупрозрачным методом.

4.1. Генерация враждебных патчей

Мы обучаем различные враждебные патчи, используя кодовую базу Camolo и набор данных VisDrone. Во всех экспериментах используется один и тот же исходный набор данных и архитектура модели. Мы меняем начальный патч между экспериментами, пробуя как устаревшие патчи, так и совершенно случайные начальные точки. Другими переменными являются допустимые цвета меток и альфа-значение (полупрозрачность) меток. Размер пятна (как часть площади интересующего объекта) и уровень шума также варьируются. Наконец, мы выбираем одну из трех потерь для каждого эксперимента: объект (сосредоточьтесь только на минимизации обнаружения ограничивающей рамки), класс (сосредоточьтесь на запутанном предсказании класса каждой ограничивающей рамки) и объект × класс. Большинство экспериментов нацелены на необнаружение (например,. «1. Объект только v0»), хотя некоторые эксперименты пытаются запутать, какой объект классифицируется (например,. «3. класс только v0»), например, классифицировать легковой автомобиль как грузовик. См. Рисунок 5 для обученных патчей.

На рисунке 6 показаны удачные примеры патчей, обманывающих наш обученный детектор объектов.

На рисунке 7 показано, как среднее значение F1 (mF1) зависит от альфы (полупрозрачности) и размера пятна. На этом графике показано процентное снижение обнаружения транспортных средств, обеспечиваемое патчами. Коэффициент корреляции Пирсона между уменьшением обнаружения транспортных средств mF1 и размером составляет 0,83, а коэффициент корреляции между альфа-каналом и уменьшением mF1 составляет 0,76, что указывает на то, что более крупные и менее полупрозрачные пятна более эффективно скрывают транспортные средства.

4.2. Обнаружение патчей

На рисунке 7 мы показали, что наши исправления значительно снижают способность нашей обученной модели YOLTv4 обнаруживать транспортные средства. В этом разделе мы рассмотрим, насколько легко обнаружить наличие этих исправлений. Напомним из нашего предыдущего блога [ссылка], что наличие устаревших исправлений легко обнаружить. Чтобы проверить обнаруживаемость наших пятен, мы обучаем общий детектор пятен, накладывая 10 пятен с рисунка 5 и накладывая их на обучающие изображения VisDrone. Мы обучаем модель YOLTv4 и тестируем наш универсальный детектор исправлений, накладывая каждый из наших 24 исправлений на тестовый набор и оценивая, насколько надежно могут быть обнаружены исправления, см. рис. 8.

Производительность показана на рисунке 9. На рисунке 9 зеленая линия обозначает эффективность обнаружения исходной 4-классовой модели на невозмущенных изображениях; синие полосы обозначают производительность модели обнаружения с 4 классами при применении перечисленных враждебных исправлений; оранжевые полосы обозначают производительность модели, обученной обнаруживать наличие исправлений. 10 патчей, использованных для обучения модели обнаружения патчей, отмечены звездочкой (*) на рисунке 9.

5. Анализ

Обратите внимание, что на рис. 9 оранжевые столбцы незначительно выше для отмеченных звездочкой (т.е. обучающих) исправлений по сравнению с «невидимыми» исправлениями. Также обратите внимание, что для большинства патчей легче обнаружить наличие патча, чем транспортных средств (оранжевые столбцы выше, чем синие столбцы).

Если мы объединим две характеристики двух экспериментальных групп (обнаружение транспортных средств + обнаружение патча), мы останемся с рисунком 10, на котором показана оценка «обнаружения»: максимум из двух синих и оранжевых полос на рисунке 9. Это «обнаружение» оценка обеспечивает меру эффективности пластыря, поскольку легко обнаруживаемый пластырь не очень эффективен для маскировки, поскольку сам пластырь выявляет присутствие интересующего объекта. Напомним, что на рисунках 9 и 10 чем меньше, тем лучше. Обратите также внимание на то, что большинство исправлений не дают совокупного преимущества, поскольку они превышают зеленый базовый уровень. Тем не менее два черно-белых патча (obj_only_tiny_gray_v0 и obj_only_tiny_gray_v1) являются наиболее эффективными. Точная причина такой эффективности будет оставлена для дальнейшей работы, но мы постулируем, что заметная разница между этими двумя участками (т.е. оттенки серого и цвет) от десяти участков в нашем обучающем наборе детектора участков в значительной степени ответственный.

На рис. 11 показано, как совокупность зависит от альфа-канала и размера патча. Вспомните рисунок 7, где более крупные и более непрозрачные (с более высоким альфа-каналом) пятна более эффективно сбивают с толку детектор транспортных средств. Тем не менее, рисунок 11 показывает, что патчи с более высоким альфа-каналом и большими размерами на самом деле менее эффективны в совокупной производительности, поскольку существование больших непрозрачных патчей гораздо легче обнаружить. На самом деле, с точки зрения совокупной производительности, предпочтительны меньшие, более полупрозрачные участки (корреляция Пирсона между обнаружением и альфа-каналом: -0,76, корреляция Пирсона между обнаружением и размером участка: -0,83). В конечном счете, для настоящего камуфляжа, по-видимому, следует отдавать приоритет незаметности нашивок, делая их маленькими и полупрозрачными.

6. Выводы

Было показано, что враждебные патчи эффективны для маскировки объектов в относительно однородных наборах данных, таких как Inria и DOTA. В этом блоге мы показали, что, хотя патчи могут эффективно скрывать людей и самолеты, такие патчи легко обнаружить. Это мотивирует наше исследование того, могут ли быть разработаны «незаметные» патчи для затемнения объектов на изображениях сверху. Используя разнообразный набор данных VisDrone, мы обучаем библиотеку из 24 враждебных патчей с различными входными параметрами. Хотя большинство этих патчей значительно уменьшают обнаружение интересующих нас объектов (автобусы, легковые автомобили, грузовики, фургоны), большинство патчей все же легче обнаружить, чем транспортные средства. Однако наши два черно-белых пятна плохо обнаруживаются с помощью нашей модели обнаружения пятен из-за их значительного отклонения от обучающего набора исправлений. В связи с этим возникает вопрос: насколько большой и разнообразной должна быть библиотека исправлений, чтобы она была по-настоящему эффективной? И сколько усилий требуется для смягчения последствий, чтобы обучить надежную модель обнаружения исправлений, которая будет эффективно бороться с маскировкой противника? Мы дали некоторые первые намеки на эти вопросы, но многое еще предстоит сделать. Помимо углубления в эти вопросы, в будущей работе мы надеемся ввести ложные срабатывания в изображения (например,. может ли простой шаблон, размещенный в пустом поле, обманом заставить модель компьютерного зрения «обнаружить» заполненную парковку? ).