Возвращение: защита от состязательных атак с использованием высокоуровневого представления управляемого шумоподавителя

Смысл

Удалите шум от враждебных примеров перед подачей в целевую модель.

Инновации

Вместо шумоподавления враждебных изображений с помощью шумоподавителя с пиксельным управлением (PGD) в этой работе используются высокоуровневые представления в (a) функциях-, (b) logit-, (c) уровень классификации для управления обучением шумоподавителя, называемый высокоуровневым шумоподавителем, управляемым представлением (HGD).

Вместо обычных автокодировщиков в этой работе предлагается автокодировщик, похожий на UNet, для шумоподавления, называемый DUNET.

Результаты

Эксперименты демонстрируют эффективность трех методов HGD, а также исследуют их переносимость на разные модели.
Послойные уровни возмущения целевой модели, как показано ниже (случайный шум рассматривается как базовый уровень).

На приведенном выше графике есть два интригующих наблюдения:
(1) для PGD уровень возмущения постепенно усиливается по иерархии слоев, приближаясь к состязательному на последний слой.
(2) LGD имеет более высокий уровень помех, чем Adversarial на первом уровне, что указывает на то, что LGD повышает общий уровень шума как показано ниже.

LGD имеет наклон ближе к 1, что означает, что враждебные возмущения в основном удалены. Кроме того, оценка очень зашумлена, что приводит к высокому уровню шума на уровне пикселей.

Выводы

Авторы предполагают, что HGD защищает целевую модель двумя механизмами.

HGD действительно подавляет уровень враждебного шума, в частности уменьшая эффект усиления ошибок враждебных примеров.
HGD добавляет к изображению некоторое благоприятное возмущение, которое защищает целевую модель. В этом смысле HGD работает как анти-состязательный преобразователь, который преобразует состязательные примеры в некоторый простой для классификации пример.

Machine Learning Adversarial Example Defense

30.06.2022