Появиться на семинаре Beyond BackPropagation на NeurIPS 2020 🔥

🎭 Состязательные атаки генерируют слегка искаженные входные данные, которые неверно классифицируются нейронными сетями. Точность некоторых моделей машинного обучения может рухнуть, как карточный домик, перед лицом атак, которые даже не заметят люди. Хрупкость моделей - серьезное препятствие для развертывания обученных моделей в реальных сценариях. Кроме того, возникают серьезные вопросы о том, чему на самом деле обучаются нейронные сети. Обучающие модели, устойчивые к атакам противника, - актуальная тема как с практической, так и с теоретической точки зрения.

Состязательные атаки можно разделить на белые и атаки черного ящика. Наше внимание уделяется атакам методом белого ящика, когда злоумышленник имеет доступ к распределению данных и полной архитектуре модели. Используя эту информацию, злоумышленник может легко создать определенный ввод, чтобы обмануть сеть. Хотя самые известные примеры относятся к компьютерному зрению, состязательные атаки являются проблемой во многих других областях ИИ, таких как распознавание речи и обучение с подкреплением.

Эффективность атак методом белого ящика проистекает из большого количества информации, переносимой градиентами, вычисляемыми с помощью обратного распространения. Точно так же, как они могут использоваться для настройки параметров нейронной сети для повышения производительности, градиенты также могут позволить злоумышленнику создать ложный образец, который разрушает такую ​​производительность. Метод быстрого градиентного знака (FGSM) использует следующее простое уравнение для создания противостоящих примеров:

Более сложные атаки, такие как Прогнозируемый градиентный спуск (PGD), повторяют предыдущее уравнение и при необходимости проецируют обратно в окрестности образца. Динамика такого алгоритма в ландшафте потерь показана на рисунке 1.

🛡 Текущие стратегии защиты

Текущие стратегии построения надежных архитектур можно разделить на две группы:

Надежное обучение

В процессе обучения минимизируются не стандартные потери, а так называемые устойчивые потери. Короче говоря, обучение также проводится на состязательных примерах как крайняя форма увеличения данных. Несмотря на то, что это эффективный метод повышения устойчивости модели, за него приходится платить. Действительно, надежное обучение требует больших затрат времени и данных. Более того, было показано, что надежность, достигаемая таким образом, естественным образом приводит к компромиссу с точностью [3]. Как следствие, надежное обучение нелегко масштабировать для более крупных архитектур и наборов данных.

Затуманенные градиенты

Другое семейство защит состоит в активном маскировании градиентов при сохранении высокого качества обучения. Вот несколько примеров:

  • ⛏️ Разрушенные градиенты: численная нестабильность или недифференцируемые слои создают нулевые или неправильные градиенты.
  • 🔀 Стохастические градиенты: случайность вводится в саму сеть или во входные данные.
  • 💥 Взрывающиеся и исчезающие градиенты: использование конвейера, аналогичного повторяющимся нейронным сетям, для создания очень глубоких сетей, в которых градиенты становятся очень маленькими или очень большими.

Авторы [4] считают, что такого рода защиты «дают ложное ощущение безопасности», потому что их можно обойти. Например, мы можем построить дифференцируемые аппроксимации операций, которые производят раздробленные градиенты (авторы называют это дифференцируемым приближением обратного прохода).

Было показано, как атаки, генерируемые с помощью синтетических градиентов, например, генерируемые с помощью прямого согласования с обратной связью (DFA) [1], менее эффективны, чем атаки с использованием истинных градиентов [2]. Тем не менее, в настройке «белого ящика» злоумышленник может выбрать свой любимый метод для вычисления состязательных примеров. Нам нужен способ заставить их использовать неэффективную стратегию.

💡Использование незнания для повышения надежности

LightOn Optical Processing Unit (OPU) выполняет матричное произведение, за которым следует нелинейность, которая на практике недифференцируема, поскольку:

  • 🧐 Элементы матрицы передачи неизвестны. Несмотря на то, что их можно восстановить с помощью методов фазового поиска [5], это быстро становится невозможным с увеличением размера, и всегда есть некоторая относительная ошибка.
  • 👾 Вход и выход квантуются до 1 и 8 бит соответственно.

Мы можем воспользоваться этими характеристиками, чтобы построить архитектуру, которая по своей конструкции является надежной: злоумышленник вынужден использовать неэффективные методы атаки.

Архитектура, оснащенная слоем, выполняющим эту операцию, может быть обучена только с помощью алгоритма, который не использует прямые веса в обратном проходе и может обрабатывать недифференцируемые уровни. DFA идеально подходит.

На рисунке 2 показана сеть с уровнем OPU. Во время обучения и атак DFA используется для обхода недифференцируемой случайной операции OPU, в то время как сверточные слои по-прежнему обучаются с использованием BP. В наших экспериментах мы использовали архитектуру VGG-16, оснащенную OPU, которую мы назвали VGG-OPU, обученную на CIFAR-10.

Чтобы количественно оценить надежность VGG-OPU, мы атаковали его с помощью FGSM и PGD. Естественной базой для нашего сравнения является производительность стандартного VGG-16 при атаках того же типа. Мы показываем результаты на рисунке 3:

Наша архитектура более надежна по сравнению со стандартным VGG-16, и это происходит благодаря дизайну, без проблем с альтернативными дорогостоящими методами обучения. Защита, обусловленная характером нашего сопроцессора, обходится очень дорого, если вообще возможно, для злоумышленника, который ограничен в своих злонамеренных намерениях.

Наша защита может масштабироваться до более крупных наборов данных и архитектур, поскольку ее надежность не требует дополнительных затрат.

🚧 Что дальше?

Состязательные угрозы не ограничиваются изображениями, атаки на основе градиентов могут, естественно, выходить за рамки области компьютерного зрения. Наш следующий шаг - создание семейства надежных по своей конструкции -OPU подобных архитектур в различных областях искусственного интеллекта.

О нас

LightOn - компания, занимающаяся аппаратным обеспечением, которая разрабатывает новые оптические процессоры, которые значительно ускоряют вычисления с помощью машинного обучения. Процессоры LightOn открывают новые горизонты в областях вычислений и инженерии, которые сталкиваются с вычислительными ограничениями. Заинтересованы в ускорении вычислений? Попробуйте наше решение на LightOn Cloud! 🌈

Следите за нами в Twitter на @LightOnIO, подпишитесь на нашу рассылку новостей и / или зарегистрируйтесь в нашей серии семинаров. Мы ведем прямые трансляции, поэтому вы можете присоединиться к нам откуда угодно. 🌍

Автор

Алессандро Каппелли, инженер по машинному обучению в LightOn AI Research.

Подтверждение

Спасибо Жюльену Лоне, Виктуар Луи, Рубену Охана и Якопо Поли за рецензирование этого сообщения в блоге.

использованная литература

[1] Арильд Нёкланд « Прямая обратная связь обеспечивает обучение в глубоких нейронных сетях »

[2] Мохамед Акрут « О состязательной устойчивости нейронных сетей без переноса веса »

[3] Димитрис Ципрас и др. « Надежность может идти вразрез с точностью »

[4] Аниш Атали, Николас Карлини и др. « Затуманенные градиенты создают ложное ощущение безопасности: обход защиты и примеры состязательности »

[5] Гупта, Сидхарт и др. « Не воспринимайте это всерьез: фазирование оптических случайных проекций с неизвестными операторами »