В 2014 году публикация исследования группы исследователей искусственного интеллекта под руководством Google открыла новую область взлома, названную состязательной атакой. Методы, продемонстрированные в документе, не только изменили наше понимание того, как работает машинное обучение, но и показали на практике, как потенциально может быть подорвано один из наиболее коммерчески многообещающих и долгожданных аспектов революции в области искусственного интеллекта.

Эта новая поверхность атаки оказалась настолько неотъемлемой от базовой структуры глубоких нейронных сетей, что до сих пор лучшие умы в области исследований ИИ испытывают трудности с разработкой эффективных средств защиты от нее.

Это не было исправляемым программным надзором в стиле 2000 года, а скорее системная архитектурная уязвимость, которая, если не допустить новых прорывов, грозит перенести из текущего периода академических и теоретических разработок в бизнес-системы, военные и гражданские системы искусственного интеллекта будущего.

Если у машинного обучения есть фундаментальная слабость, эквивалентная сценарию атаки 51% в схемах криптовалюты, то похоже, что это его уязвимость для состязательных атак.

Изображение - это все

Основное преимущество нейронных сетей нового поколения - это способность работать с визуальным миром. Программное обеспечение для анализа изображений на основе ИИ может управлять транспортными средствами, анализировать медицинские изображения, распознавать лица, проводить проверки безопасности, расширять возможности роботов, классифицировать базы данных изображений, создавать пространства в дополненной реальности, анализировать и интерпретировать видеоматериалы для событий и языка и даже помогать при хирургических вмешательствах.

Для этого системе машинного обучения на основе изображений нужны два ресурса. Первый - это обучающий набор неподвижных изображений или видео, который позволяет ему получить достаточно точное представление об объектах и ​​событиях, которые ему впоследствии может понадобиться распознать. Второй - это действенные изображения, такие как кадры с камер видеонаблюдения.

С экономической точки зрения такая система должна быть рассчитана на работу с доступным материалом. Даже если входное изображение имеет такие проблемы, как артефакты сжатия или низкое разрешение, ИИ должен учитывать эти ограничения в своем процессе.

Такой высокий уровень отказоустойчивости, как выясняется, позволяет злоумышленникам отравлять входные данные и влиять - или даже командовать - на результат анализа ИИ.

Злобный призрак в машине

Термин состязательная атака был впервые введен в статью под руководством исследователя искусственного интеллекта Google Кристиана Сегеди в 2014 году. Тонко изменив сильно различающиеся тестовые изображения из базы данных ImageNet, исследователи заставили систему машинного обучения ошибочно классифицировать их все как страусиные. »На примере популярной и уважаемой сверточной нейронной сети AlexNet.

Источник изображения

В левом столбце показаны исходные изображения ImageNet. В среднем столбце показана тонкая матрица различий, примененная исследователями. В правом столбце показаны окончательно обработанные изображения, которые были классифицированы как «страусиные».

Эта процедура была не только легко воспроизводимой, но и, что удивительно, оказалась широко переносимой между различными моделями и конфигурациями нейронных сетей.

Атака представляет собой неправильное использование фундаментальной особенности концептуальной модели систем машинного обучения на основе изображений, использующее процесс исключения, который система использует при оценке, какую метку применить к изображению.

Характеристики могут быть извлечены из изображения, наиболее классифицированного как, например, страуса, а затем незаметно применены к изображениям, не относящимся к страусу, так что они будут классифицированы как "страус". Математика, используемая для процедуры исключения, позволяет злоумышленнику систематически продвигать отравленное изображение за границу в классификацию целей.

Уровень визуального «возмущения» в таких состязательных изображениях настолько низок, что и человеческий глаз, и нейронная сеть обучены не принимать их во внимание как шум. Но нейронная сеть не может этого сделать, поскольку этот шум имеет форму дистиллированного «хеша» для установленной (хотя и неверной) классификации. Таким образом, машина внезапно закрывает процедуру анализа и возвращает неверный результат, и редукционистская математика нейронной сети возвращается к себе в форме атаки.

Шок для системы

Открытие Сегеди было вдвойне поразительным, потому что оно раскрыло линейную природу многомерного пространства моделей глубокого сетевого обучения. До этого момента считалось, что нейронные сети обладают небольшой линейностью на этом уровне работы - эксцентричная особенность, которая, по иронии судьбы, должна защищать их от систематизированных атак, подобных этой, и которые на самом деле вносят свой вклад в спорный характер« черного ящика » системы искусственного интеллекта.

Напротив, атаку было не только тривиально воспроизвести, но и быстро оказалось, что она применима в «реальном мире».

В 2016 году исследование Карнеги-Меллона основывалось на открытиях Сегеди, чтобы создать метод, способный обмануть современную систему распознавания лиц (FRS) с помощью очков с двухмерной печатью.

Источник изображения

Первая колонка: два исследователя уклоняются от обнаружения FRS. Вторая колонка: Исследователь, успешно идентифицированный как цель, актриса Милла Йовович [источник]; Третий столбец: исследователь успешно идентифицирован как коллега; Четвертая колонка: исследователь успешно изображает телеведущего Карсона Дейли [источник].

К этому моменту множество новых исследовательских работ охватило теорию враждебных атак и начало различать неправильную классификацию (уклонение от правильной идентификации) и целевую классификацию (прививание конкретной и неправильной целевой идентичности к изображению).

В этом случае исследователям удалось убедить систему распознавания лиц и объектов, что одним из мужчин-исследователей была голливудская актриса и модель Милла Йовович, а другим - телеведущая Карсон Дейли. Кроме того, они могли обмениваться личными данными между собой или иным образом заставлять FRS не идентифицировать их.

Во всех случаях ключом к уловке была закодированная текстура, напечатанная на их огромных очках, которой было достаточно для «хеширования» до цели для системы машинного обучения.

Любые сомнения в устойчивости текстур с включенными целями были устранены в 2017 году, когда исследователи Массачусетского технологического института напечатали на 3D-принтере специально созданную модель черепахи, способную убедить систему классификатора изображений InceptionV3 от Google, что это была винтовка.

Закодированная текстура объекта "черепаха" Массачусетского технологического института всегда читается как "винтовка" в алгоритме распознавания объектов Google.

Оборонительные усилия

С тех пор, как было обнаружено наличие состязательной атаки, был рассмотрен широкий спектр контрмер. В исследовании, проведенном в Гарварде в 2017 году, было предложено упорядочить ввод изображений, чтобы уравнять правила игры и упростить идентификацию созданных изображений атак. Однако этот метод требует удвоения и без того напряженных ресурсов, необходимых для работы жизнеспособной системы машинного обучения. Даже там, где возможны вариации этой техники градиентной маскировки, возможны контратаки.

В исследовательской статье Стэнфордского университета 2017 года была предложена биологически вдохновленная глубокая сетевая защита », которая искусственно создает нелинейность, которая, как предполагали исследователи до статьи 2014 года, существовала. Однако коллегиальная критика предполагает, что эту технику легко свести на нет, стабилизируя входной градиент.

В недавнем отчете Института инженеров по электротехнике и радиоэлектронике (IEEE) дается оценка четырех лет исследований, направленных на защиту, после раскрытия техники состязательной атаки, и не обнаруживается никакого предлагаемого подхода, который мог бы окончательно и экономично преодолеть системный характер уязвимости. В отчете делается вывод о том, что состязательные атаки представляют реальную угрозу глубокому обучению на практике, особенно в приложениях, критически важных для безопасности.

Исследование, проведенное в Италии в 2018 году, соглашается с тем, что сценарий состязательной атаки невосприимчив к текущим контрмерам.

Широкое применение состязательных атак

Наиболее тревожным аспектом состязательной атаки является ее переносимость не только в разные системы машинного обучения и обучающие наборы, но и в другие области машинного обучения, помимо компьютерного зрения.

Состязательные атаки в аудио

Исследование Калифорнийского университета в 2018 году продемонстрировало, что можно добавить состязательное возмущение к звуковой волне (например, запись речи) и полностью изменить преобразование речи в текст на целевую фразу или даже скрыть речевую информацию. в других типах аудио, например в музыке.

Это сценарий атаки, который, среди прочего, угрожает целостности помощников ИИ. Коммерческое использование домашних устройств, которые постоянно слушают, уже подверглось жесткой критике, а подделка речевого ввода пользователя имеет очевидные последствия для агрессивных маркетинговых кампаний.

Состязательные атаки в тексте

В документе 2017 года индийской исследовательской лаборатории IBM излагается сценарий состязательной атаки, основанный на вводе чистого текста, и отмечается, что подобная техника может использоваться для манипулирования системами анализа настроений, которые используют методы обработки естественного языка (NLP), и их обмана. На широко распространенном уровне такой метод потенциально может позволить провести кампанию дезинформации под руководством аналитиков в категории фейковых новостей.

Последствия уязвимости состязательной атаки для машинного обучения

Ян Гудфеллоу, создатель Generative Adversarial Networks и ключевой участник дискуссии о состязательных атаках, прокомментировал, что системы машинного обучения не должны повторять ошибки ранних операционных систем, где защита изначально не была встроена в дизайн.

Тем не менее, отчет IEEE, подкрепленный другими обзорами исследований, предполагает, что в сетях глубокого обучения эта слабость заложена в них с самого начала. Все попытки противостоять синдрому на собственных условиях могут быть отброшены, потому что они являются итерациями (и контр-итерациями) одной и той же математики.

Что осталось, так это возможность применения «брандмауэра» или дозорного подхода к очистке данных, когда спутниковые технологии развиваются вокруг постоянно уязвимой структуры машинного обучения за счет сетевых и машинных ресурсов и снижения целостности всего процесса.

Коммерческие соображения, кажется, берут верх. На сегодняшний день единственным реальным примером состязательной атаки, показавшим потенциальную серьезность проблемы для СМИ, был случай, когда группа исследователей заставила систему машинного обучения неверно интерпретировать дорожные знаки, просто распечатав слегка измененные версии их.

Тем не менее, в отчете IEEE отмечается в целом пренебрежительное отношение к угрозе в академических кругах: «В то время как немногие работы предполагают, что состязательные атаки на глубокое обучение не могут быть серьезной проблемой, большая часть соответствующей литературы указывает на обратное».

Текущая применимость или масштаб враждебных атак не имеет значения, если фундаментальная уязвимость сохраняется в более поздних производственных системах. В момент коммерциализации и повсеместного распространения такие системы, вероятно, станут гораздо более привлекательной целью, требующей больших ресурсов от тех, которые будут использовать некоторые из наиболее чувствительных и важных новых приложений будущего, основанных на искусственном интеллекте.