Смысл

Удалите шум от враждебных примеров перед подачей в целевую модель.

Инновации

  • Вместо шумоподавления враждебных изображений с помощью шумоподавителя с пиксельным управлением (PGD) в этой работе используются высокоуровневые представления в (a) функциях-, (b) logit-, (c) уровень классификации для управления обучением шумоподавителя, называемый высокоуровневым шумоподавителем, управляемым представлением (HGD).

  • Вместо обычных автокодировщиков в этой работе предлагается автокодировщик, похожий на UNet, для шумоподавления, называемый DUNET.

Результаты

  • Эксперименты демонстрируют эффективность трех методов HGD, а также исследуют их переносимость на разные модели.
  • Послойные уровни возмущения целевой модели, как показано ниже (случайный шум рассматривается как базовый уровень).

  • На приведенном выше графике есть два интригующих наблюдения:
    (1) для PGD уровень возмущения постепенно усиливается по иерархии слоев, приближаясь к состязательному на последний слой.
    (2) LGD имеет более высокий уровень помех, чем Adversarial на первом уровне, что указывает на то, что LGD повышает общий уровень шума как показано ниже.

  • LGD имеет наклон ближе к 1, что означает, что враждебные возмущения в основном удалены. Кроме того, оценка очень зашумлена, что приводит к высокому уровню шума на уровне пикселей.

Выводы

Авторы предполагают, что HGD защищает целевую модель двумя механизмами.

  1. HGD действительно подавляет уровень враждебного шума, в частности уменьшая эффект усиления ошибок враждебных примеров.
  2. HGD добавляет к изображению некоторое благоприятное возмущение, которое защищает целевую модель. В этом смысле HGD работает как анти-состязательный преобразователь, который преобразует состязательные примеры в некоторый простой для классификации пример.