Как бэкдор-атаки работают в конвейерах машинного обучения, часть 8

VillanDiffusion: унифицированная структура бэкдор-атак для моделей распространения (arXiv)

Автор: Шэн-Йен Чжоу, Пин-Ю Чен, Цун-И Хо.

Аннотация: Диффузионные модели (DM) — это современные генеративные модели, которые изучают обратимый процесс искажения путем итеративного добавления шума и шумоподавления. Они являются основой многих генеративных приложений ИИ, таких как условная генерация текста в изображение. Однако недавние исследования показали, что базовые безусловные DM (например, DDPM и DDIM) уязвимы для бэкдор-инъекций — типа атаки с манипулированием выходными данными, запускаемой вредоносным шаблоном, встроенным на входе модели. В этом документе представлена унифицированная структура бэкдор-атак (VillanDiffusion) для расширения текущих возможностей анализа бэкдоров для DM. Наша структура охватывает основные безусловные и условные DM (на основе шумоподавления и на основе оценок) и различные сэмплеры без обучения для целостных оценок. Эксперименты показывают, что наша унифицированная структура облегчает анализ бэкдоров различных конфигураций DM и дает новое представление об атаках бэкдоров на DM на основе заголовков.

2. Бэкдор-атака с разреженным и невидимым триггером (arXiv)

Автор: Инхуа Гао, Имин Ли, Сюэлуань Гун, Шу-Тао Ся, Цянь Ван.

Аннотация: Глубокие нейронные сети (ГНС) уязвимы для бэкдор-атак, когда злоумышленник манипулирует небольшой частью обучающих данных таким образом, что модель-жертва нормально прогнозирует на безвредных выборках, но классифицирует сработавшие выборки как целевой класс. Бэкдор-атака — это новая, но опасная угроза на этапе обучения, которая приводит к серьезным рискам в приложениях на основе DNN. В этой статье мы вновь рассматриваем триггерные модели существующих бэкдор-атак. Мы показываем, что они либо видны, либо не разрежены и, следовательно, недостаточно скрытны. Что еще более важно, невозможно просто объединить существующие методы для разработки эффективной разреженной и невидимой бэкдор-атаки. Чтобы решить эту проблему, мы формулируем генерацию триггера как задачу двухуровневой оптимизации с ограничениями разреженности и невидимости и предлагаем эффективный метод ее решения. Предлагаемый метод получил название «разреженная и невидимая бэкдор-атака» (SIBA). Мы проводим обширные эксперименты с эталонными наборами данных при различных настройках, которые проверяют эффективность нашей атаки и ее устойчивость к существующим средствам защиты от бэкдоров. Коды для воспроизведения основных экспериментов доступны по адресу \url{https://github.com/YinghuaGao/SIBA}.

Как бэкдор-атаки работают в конвейерах машинного обучения, часть 8

Вопросы по теме