Ядовитые чернила: скрытый, надежный, общий, невидимый и гибкий метод атаки с использованием бэкдора

Хотя прогресс и мощь глубоких нейронных сетей (ГНС) ускорили разработку таких приложений, как распознавание лиц и объектов, известно, что ГНС уязвимы для различных стратегий атак. Одна из самых коварных — это бэкдор-атаки, которые могут повредить обучающий набор данных и привести к тому, что DNN будут давать последовательные и повторяющиеся ошибочные классификации на входных данных, помеченных определенным шаблоном «триггера».

Опасность бэкдор-атак вызывает озабоченность как в академических кругах, так и в промышленности, хотя большинство существующих бэкдор-атак часто либо видимы, либо уязвимы для процедур предварительной обработки.

В новой статье исследовательская группа из Университета науки и технологий Китая, Microsoft Cloud AI, Городского университета Гонконга и Wormpex AI Research увеличивает мощность бэкдор-атак, представляя «Ядовитые чернила», надежный и невидимый метод. который устойчив ко многим современным методам защиты.

Команда резюмирует свой вклад следующим образом:

Мы первыми предложили использовать структуры изображений в качестве носителя триггерных паттернов и показали, что они имеют естественные преимущества по сравнению с существующими триггерными паттернами.
Мы разрабатываем новый бэкдор-фреймворк Poison Ink, который использует раскрашенные структуры изображений в качестве триггерного шаблона и скрывает триггерный шаблон невидимым образом с помощью сети глубокого внедрения.
Обширные эксперименты демонстрируют скрытность и надежность Poison Ink, которые обычно применимы к различным наборам данных и сетевым структурам.
Ядовитые чернила хорошо работают в различных сценариях атаки и обладают сильным сопротивлением многим методам защиты SOTA.

Цели команды состояли в том, чтобы позволить Poison Ink поддерживать производительность модели на чистых данных, создавать незаметно отравленные изображения, которые избегают проверки человеком на этапе вывода, и поддерживать высокую эффективность атаки, даже если отравленные изображения предварительно обрабатываются посредством преобразования данных.

Конвейер Poison Ink включает в себя процесс генерации триггерного изображения, обучение модели бэкдора и атаку модели бэкдора.

Команда генерирует свои триггерные шаблоны, встраивая отравленную информацию в пограничные структуры, а затем внедряя триггерный шаблон в изображение обложки с помощью стратегии глубокого невидимого внедрения. Этот новый подход к генерации триггерных изображений имеет несколько преимуществ по сравнению с существующими стратегиями атак: 1) его можно легко захватить поверхностными слоями DNN, и он не повлияет на выполнение исходной задачи; 2) реберные структуры могут сохранять свое семантическое значение и физическое существование при преобразовании данных; 3) Краевые структуры — это неотъемлемая высокочастотная составляющая изображений, поэтому атаку можно эффективно сделать невидимой.

Установив этот триггерный шаблон на основе граничной структуры, команда разработала стратегию глубокого внедрения, чтобы скрыть триггерный шаблон на обложке. В процессе обучения используется сеть глубокой инжекции, вспомогательная сеть экстрактора наведения, которая помогает сети инжекции обучаться, и слой помех, который позволяет сети инжекции более надежно внедрять шаблоны запуска.

После обучения модели бэкдора сеть глубокого внедрения скрывает шаблон триггера в чистых изображениях обложки, создавая тем самым отравленные изображения.

Чтобы продемонстрировать невидимость и надежность предлагаемых чернил Poison, команда провела бэкдор-атаки на три типа задач классификации: CIFAR10 и ImageNet для общих задач распознавания изображений, а также GTSRB и VGGFACE для распознавания дорожных знаков и распознавания лиц. Они использовали метрику точности чистых данных (CDA) для оценки влияния своих бэкдор-атак на исходную задачу и коэффициент успешных атак (ASR) для оценки общей эффективности бэкдор-атак.

Команда также провела проверку на людях, в ходе которой 30 человек попросили различать пары изображений (одно чистое и одно отравленное), созданные разными методами атаки. В то время как отравленные изображения, созданные большинством других методов, легко расценивались как нечистые, вероятность обмана предложенного подхода была близка к 50 процентам, то есть вероятность случайного угадывания.

Эмпирические результаты показывают, что Poison Ink превосходит существующие методы атак по скрытности, надежности, универсальности и гибкости, а также устойчив ко многим современным методам защиты. Исследование может послужить тревожным сигналом для исследователей машинного обучения в связи с необходимостью разработки новых и более эффективных стратегий защиты от все более изощренных бэкдор-атак.

Статья Poison Ink: надежная и невидимая бэкдор-атака размещена на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен, Чейн Чжан

Мы знаем, что вы не хотите пропустить ни одной новости или научного открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

Ядовитые чернила: скрытый, надежный, общий, невидимый и гибкий метод атаки с использованием бэкдора

Вопросы по теме