Состязательные атаки (часть 2) — укрепление доверия к моделям глубокого обучения

Типы враждебных атак

Существует два типа состязательных атак:

Целевые состязательные атаки
Эти атаки нацелены на модель M, которая в идеале должна классифицировать пример S как класс X, чтобы изменить свое решение и, в частности, получить результат как класс Y. Физические атаки с использованием исправлений — это Пример целевых атак.
Нецелевые состязательные атаки
Эти атаки нацелены на модель M, которая в идеале должна классифицировать пример S как класс X, чтобы изменить свое решение и получить результат как любой, кроме класса X. Их цель — создать ложный результат, но им не нужен конкретный класс в качестве вывода. Пример. Атака вне распределения (OOD), при которой на этапе обучения вводятся входные данные набора данных совершенно другого типа.

Исследователи обнаружили, что нецелевые атаки, хотя и не так эффективны, как целевые, занимают гораздо меньше времени и их легче реализовать.

Состязательные примеры и как они создаются

Любой экземпляр, который может вызвать состязательную атаку, называется состязательным примером. Теперь посмотрим, как они генерируются.

При обучении моделей машинного обучения цель состоит в том, чтобы свести к минимуму потери между целевой меткой и прогнозируемой меткой. Математически это формулируется следующим образом:

А затем на этапе тестирования модель оценивается по тому, насколько точно она может предсказать правильную метку. Ошибка рассчитывается путем суммирования потерь между прогнозируемой меткой и целевой меткой, как показано ниже:

Атака создается с помощью следующих шагов:

Ввод запроса изменен с x на x’.
Потеря изменяется с l(H(x ᵢ), y ᵢ) на l(H(x ᵢ), y’ ᵢ), где y’ ᵢ ≠ y ᵢ

Одним из способов выполнения шага (1) является использование «Состязательное возмущение», где возмущение рассчитывается таким образом, что метка вывода изменяется по сравнению с исходным выводом. Например, пиксельный шум рассчитывается таким образом, что классификатор изображения может быть сбит с толку.

В нецелевых атаках есть только одна цель — максимизировать потери между H(x) и H(x’), пока результат предсказания не изменится с y. Целевые атаки имеют еще одну цель — минимизировать потери между H(x’) и y’ до тех пор, пока H(x’) = y’ вместо y.

Враждебные возмущения можно разделить на две категории — одноэтапные возмущения и многоэтапные возмущения.

Одношаговые возмущения
Здесь возмущение вводится за один раз . Они быстрые, но, поскольку может быть добавлено много шума одновременно, люди могут легко обнаружить их. Другая особенность заключается в том, что он больше фокусируется на минимизации потерь между H(x) и H(x’), а не на уменьшении размера возмущения.

Многоступенчатые возмущения
Они выполняются в итерациях, при этом небольшое возмущение вводится на каждой итерации. Они являются более стратегическими, их трудно обнаружить и они требуют больших вычислительных ресурсов.

Если вам понравилась эта статья, пожалуйста, дайте мне знать через лайки и комментарии ниже.

Если вы не хотите пропустить будущие хакерские статьи, подпишитесь на меня в LinkedIn и подпишитесь на мой блог здесь.

Состязательные атаки (часть 2) — укрепление доверия к моделям глубокого обучения

Типы враждебных атак

Состязательные примеры и как они создаются

Вопросы по теме