Недавно было показано, что отличные результаты могут быть достигнуты в различных реальных приложениях, включая беспилотные автомобили, анализ медицинских изображений и распознавание человеческого лица. Эти достижения объясняются достижениями глубоких нейронных сетей (DNN), а также доступностью огромных объемов данных и вычислительной мощностью. Характерными примерами этих достижений являются беспилотные автомобили, которые настолько надежны, что им больше не нужны человеческие водители внутри как резерв; системы, которые лучше, чем специалисты-люди, обнаруживают метастазы рака; и программное обеспечение для распознавания лиц, которое превосходит человеческие возможности. Но, несмотря на эти впечатляющие результаты, исследовательское сообщество недавно показало, что DNN уязвимы для состязательных атак.

О состязательных атаках

Состязательная атака заключается в тонком изменении исходного изображения таким образом, что изменения почти не обнаруживаются человеческим глазом. Модифицированное изображение называется состязательным изображением, и при отправке в классификатор классифицируется неправильно, в то время как исходное изображение классифицируется правильно. Реальные применения таких атак могут быть очень серьезными - например, можно изменить дорожный знак, чтобы его неправильно интерпретировал автономный автомобиль, и вызвать аварию. Другим примером является потенциальный риск модификации несоответствующего или незаконного контента так, чтобы его нельзя было обнаружить ни с помощью алгоритмов модерации контента, используемых на популярных веб-сайтах, ни со стороны полицейских поисковых роботов.

В Onfido мы разрабатываем современные системы машинного обучения для автоматизации множества различных задач, включая проверку личности и обнаружение мошенничества. По этой причине мы очень заинтересованы в понимании этих атак и разработке нашей собственной защиты от них. С этой целью три члена нашей исследовательской группы недавно посетили Конференцию по системам обработки нейронной информации (NIPS) в Лонг-Бич, которая считается самой престижной площадкой в ​​области машинного обучения. В этом году наиболее актуальным мероприятием NIPS на эту тему стало Соревнование по состязательным атакам и защите, организованное Google Brain. Здесь я обобщу некоторые из наиболее распространенных атак и защит, а также методы победы в соревновании.

Некоторые определения

состязательное изображение - это изображение, которое было слегка изменено, чтобы ввести в заблуждение классификатор, т. Е. Чтобы его классифицировали неправильно. Мерой изменения обычно является норма ∞, которая измеряет максимальное абсолютное изменение в одном пикселе.

При атаках с использованием белого ящика злоумышленник имеет доступ к параметрам модели, в то время как при атаках с использованием черного ящика злоумышленник не имеет доступа к этим параметрам, т. Е. Использует другую модель или нет никакой модели для генерации состязательных изображений в надежде, что они будут перенесены в целевую модель.

Цель нецелевых атак состоит в том, чтобы заставить модель неверно классифицировать враждебное изображение, в то время как в целевых атаках злоумышленник делает вид, что классифицирует изображение как определенный целевой класс. , который отличается от истинного класса.

Распространенные атаки

Наиболее успешные атаки основаны на градиентных методах. А именно злоумышленники модифицируют изображение в направлении градиента функции потерь по отношению к входному изображению. Существует два основных подхода к выполнению таких атак: однократные атаки, при которых злоумышленник делает один шаг в направлении градиента, и итеративные атаки, когда вместо один шаг, делается несколько шагов. Далее кратко описаны три наиболее распространенных атаки. Первые два являются примерами одноразовых атак, а последний - итеративной атаки.

Метод быстрого градиента знака (FGSM)

Этот метод вычисляет состязательное изображение, добавляя возмущение величины в пиксель в направлении градиента. Это возмущение вычисляется за один шаг, поэтому оно очень эффективно с точки зрения времени вычислений:

Целевой метод знака быстрого градиента (T-FGSM)

Аналогично FGSM, в этом методе вычисляется шаг градиента, но в данном случае в направлении отрицательного градиента по отношению к целевому классу:

Итеративный метод знака быстрого градиента (I-FGSM)

Итерационные методы используют T шаги градиента величины α = ε / T вместо одного шага t:

Оба одноразовых метода (FGSM и T-FGSM) имеют более низкие показатели успеха по сравнению с итеративными методами (I-FGSM) в атаках белого ящика, однако, когда дело доходит до атак черного ящика, основные одноразовые методы оказываются более эффективно. Наиболее вероятное объяснение этого заключается в том, что итерационные методы имеют тенденцию чрезмерно соответствовать конкретной модели.

Победившие атаки на конкурсе NIPS 2017

Усиление состязательных атак с помощью Momentum (MI-FGSM) было выигрышной атакой как в нецелевых, так и в целевых состязательных атаках.

Этот метод использует импульс для повышения производительности итерационных градиентных методов, как описано в следующем алгоритме.

Результаты показывают, что этот метод превосходит все другие методы в конкурсе и показывает хорошие результаты переносимости, то есть он хорошо работает в атаках черного ящика, как показано на рисунке ниже.

Этот метод использует градиенты предыдущих t шагов со спадом µ и градиент шага t + 1, чтобы обновить состязательное изображение на шаге t + 1 . Результаты показывают, что этот метод превосходит все другие методы в конкурсе и показывает хорошие результаты переносимости, то есть он хорошо работает при атаках черного ящика, как показано на рисунке ниже.

Чтобы произвести эффективные атаки против ансамблевых методов защиты, то есть методов, которые используют ряд различных базовых моделей классификации, предлагается модификация исходного алгоритма, в которой логиты всех целевых моделей объединяются перед вычислением объединенной кросс-энтропийной потери. :

Общие меры защиты

Наиболее распространенная защита состоит из введения враждебных изображений для обучения более надежной сети, которые генерируются с использованием целевой модели. Было показано, что этот подход имеет некоторые ограничения - в частности, этот вид защиты менее эффективен против атак черного ящика, чем атаки белого ящика, в которых состязательные изображения генерируются с использованием другой модели. Это связано с маскировкой градиента, то есть в такого рода защитах вводится возмущение градиентов, что делает атаки белого ящика менее эффективными, но граница принятия решения остается в основном неизменной после состязательного обучения. Предложен альтернативный подход, в котором генерация состязательных примеров не связана с параметрами обучаемой модели. Это достигается путем извлечения состязательных образцов из предварительно обученных моделей, которые затем добавляются в каждый пакет или используются для замены части несостязательных изображений в пакете.

Победа в защите на конкурсе NIPS 2017

Шумоподавитель с управляемым представлением высокого уровня был победителем на треке защиты. Это решение основано на наблюдении, что, несмотря на то, что на пиксельном уровне враждебные возмущения довольно малы, они усиливаются по всей сети, вызывая состязательную атаку. Чтобы решить эту проблему, предлагается несколько шумоподавителей более высокого уровня: шумоподавитель с управляемой функцией (FGD), шумоподавитель с управлением по логитам (LGD) и шумоподавитель с управляемой меткой класса (CGD). Все три метода используют сеть шумоподавления (DUNET), которая похожа на шумоподавляющий автокодер и использует структуру сети, аналогичную UNET, то есть имеет прямые связи между соответствующими уровнями в кодере и декодере. Фиксированная предварительно обученная сверточная нейронная сеть (CNN) также используется для обучения шумоподавителя. FGD использует отклики последнего характерного слоя CNN (для исходных изображений и изображений с шумоподавлением), чтобы направлять шумоподавитель. LGD использует логиты активации CNN, и, наконец, CGD использует выходные данные классификации.

В окончательной версии используется ансамбль из четырех шумоподавителей с управляемой функцией (FGD). Каждый обучается с использованием состязательных образцов из 14 известных атак и одной из четырех предварительно обученных CNN (ensV3, ensIncResV2, Resnet152 и RestNet101). Окончательный прогноз делается путем усреднения логитов активаций для четырех сетей.

Окончательные результаты конкурса NIPS

Оборона

1-е место: 95,3% | Защита от состязательных атак с использованием высокоуровневого подавления шумов с представлением

2-е место: 92,4% | Снижение враждебных последствий за счет рандомизации

3-е место: 91,5% | MMD

Исходный уровень: 77,3%

Ненаргетированные атаки

1-е место: 78,2% | Активное усиление враждебных атак

2 место: 77,7% | Комплексное противоборство: атаки и защиты

3-е место: 77,4%

Базовый уровень: 34,6%

Целевые атаки

1-е место: 40,2% | Активное усиление враждебных атак

2-е место: 36,9% | Ансамбль противоборства: атаки и защиты

3-е место: 36,8%

Базовый уровень: 20%

Официальные результаты можно найти здесь.