Атаки «черный ящик» и «белый ящик» — это два типа состязательных атак, которые должны понимать инженеры машинного обучения.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 125 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



По мере того, как искусственный интеллект (ИИ) и глубокое обучение становятся все более распространенными в программных решениях, они будут нести с собой другие дисциплины в технологическом пространстве. Безопасность — это одна из тех областей, которая должна быстро развиваться, чтобы идти в ногу с достижениями в области технологий глубокого обучения. Хотя мы обычно думаем о глубоком обучении в положительном контексте с алгоритмами, пытающимися улучшить интеллект решения, модели глубокого обучения также могут использоваться для организации сложных атак безопасности. Еще более интересным является тот факт, что модели глубокого обучения могут быть использованы для нарушения безопасности других интеллектуальных моделей.

Идея о том, что глубокие нейронные сети атакуют другие нейронные сети, кажется неизбежным фактом эволюции космоса. По мере того, как программное обеспечение становится все более интеллектуальным, методы безопасности, используемые для атаки и защиты этого программного обеспечения, вероятно, изначально используют аналогичный уровень интеллекта. Глубокое обучение ставит задачи в области безопасности, которых мы раньше не видели, поскольку у нас может быть программное обеспечение, способное быстро адаптироваться и генерировать новые формы атак. Пространство глубокого обучения включает в себя поддисциплину, известную как состязательные сети, которая фокусируется на создании нейронных сетей, которые могут нарушить функциональность других моделей. Хотя враждебные сети часто рассматриваются как артефакт теории игр для повышения надежности модели глубокого обучения, они также могут использоваться для создания атак безопасности.

Один из наиболее распространенных сценариев использования состязательных примеров для нарушения работы классификаторов глубокого обучения. Враждебные примеры — это входные данные для моделей глубокого обучения, которые другая сеть разработала, чтобы вызвать ошибку. В контексте моделей классификации вы можете думать о состязательных атаках как об оптических иллюзиях для агентов глубокого обучения 😊 На следующем изображении показано, как небольшое изменение в наборе входных данных приводит к тому, что модель ошибочно классифицирует стиральную машину как динамик.

Если бы все атаки противника были такими, как в приведенном выше примере, они не имели бы большого значения, однако представьте себе тот же метод, используемый для разрушения автономного транспортного средства с помощью наклеек или красок, которые проецируют изображение знака стоп. Светило глубокого обучения Ина Гудфеллоу описывает этот подход в исследовательской статье под названием Практические атаки черного ящика против машинного обучения, опубликованной несколько лет назад.

Состязательные атаки более эффективны в неконтролируемых архитектурах, таких как обучение с подкреплением. В отличие от приложений для контролируемого обучения, в которых во время обучения обрабатывается фиксированный набор обучающих примеров, в обучении с подкреплением (RL) эти примеры собираются на протяжении всего процесса обучения. Проще говоря, модель RL обучает политику, и, несмотря на то, что цели модели одинаковы, политики обучения могут существенно различаться. С точки зрения состязательного примера мы можем представить себе, что методы атаки сильно различаются независимо от того, есть ли у него доступ к сети политик, и когда нет. Используя этот критерий, исследователи глубокого обучения обычно классифицируют атаки со стороны противника на две основные группы: «черный ящик» и «белый ящик».

«В другой недавней исследовательской работе Ян Гудфеллоу и его коллеги освещают серию атак белого и черного ящиков против моделей RL. Исследователи использовали состязательные атаки против группы известных моделей RL, таких как A3C, TRPO и DQN, которые научились играть в различные игры, такие как Atari 2600, Chopper Command, Pong, Seaquest или Space Invaders.

Враждебные атаки белого ящика

Атаки со стороны «белого ящика» описывают сценарии, в которых злоумышленник имеет доступ к базовой сети политик обучения целевой модели. Исследование показало, что даже небольшие отклонения в политике обучения могут резко повлиять на производительность модели. Следующее видео иллюстрирует эти результаты.

Противоборствующие атаки черного ящика

Атаки со стороны «черного ящика» описывают сценарии, в которых злоумышленник не имеет полного доступа к сети политик. Упомянутое выше исследование классифицирует атаки черного ящика на две основные группы:

1) Злоумышленник имеет доступ к среде обучения и знает алгоритм обучения и гиперпараметры. Он знает архитектуру нейронной сети целевой сети политик, но не ее случайную инициализацию. Они называют эту модель возможностью переноса между политиками.

2) Злоумышленник дополнительно не знает ни алгоритма обучения, ни гиперпараметров. Они называют эту модель переносимостью между алгоритмами.

Неудивительно, что эксперименты показали, что чем меньше противник знает о целевой политике, тем менее эффективны его примеры. Перенос между алгоритмами менее эффективен для снижения производительности агента, чем перенос между политиками, который менее эффективен, чем атаки белого ящика.