Смысл
Удалите шум от враждебных примеров перед подачей в целевую модель.
Инновации
- Вместо шумоподавления враждебных изображений с помощью шумоподавителя с пиксельным управлением (PGD) в этой работе используются высокоуровневые представления в (a) функциях-, (b) logit-, (c) уровень классификации для управления обучением шумоподавителя, называемый высокоуровневым шумоподавителем, управляемым представлением (HGD).
- Вместо обычных автокодировщиков в этой работе предлагается автокодировщик, похожий на UNet, для шумоподавления, называемый DUNET.
Результаты
- Эксперименты демонстрируют эффективность трех методов HGD, а также исследуют их переносимость на разные модели.
- Послойные уровни возмущения целевой модели, как показано ниже (случайный шум рассматривается как базовый уровень).
- На приведенном выше графике есть два интригующих наблюдения:
(1) для PGD уровень возмущения постепенно усиливается по иерархии слоев, приближаясь к состязательному на последний слой.
(2) LGD имеет более высокий уровень помех, чем Adversarial на первом уровне, что указывает на то, что LGD повышает общий уровень шума как показано ниже.
- LGD имеет наклон ближе к 1, что означает, что враждебные возмущения в основном удалены. Кроме того, оценка очень зашумлена, что приводит к высокому уровню шума на уровне пикселей.
Выводы
Авторы предполагают, что HGD защищает целевую модель двумя механизмами.
- HGD действительно подавляет уровень враждебного шума, в частности уменьшая эффект усиления ошибок враждебных примеров.
- HGD добавляет к изображению некоторое благоприятное возмущение, которое защищает целевую модель. В этом смысле HGD работает как анти-состязательный преобразователь, который преобразует состязательные примеры в некоторый простой для классификации пример.