Отражение враждебных атак

Материалы предоставлены Яо Цинь, первым автором статьи "Отражение состязательных атак".

Был непрерывный цикл, когда более сильная защита от враждебных атак впоследствии была нарушена более продвинутой атакой, ориентированной на защиту. Мы представляем новый подход к завершению этого цикла, в котором мы «отклоняем» враждебные атаки, заставляя злоумышленника производить входные данные, семантически напоминающие целевой класс атаки. С этой целью мы сначала предлагаем более сильную защиту на основе Capsule Networks, которая сочетает в себе три механизма обнаружения для достижения самых современных характеристик обнаружения как стандартных, так и защищенных атак. Затем мы показываем, что необнаруженные атаки против нашей защиты часто по восприятию напоминают враждебный целевой класс, выполняя исследование на людях, в котором участников просят пометить изображения, созданные атакой. Эти образы атак больше нельзя называть «состязательными», потому что наша сеть классифицирует их так же, как и люди.

Что нового:

Мы вводим понятие отражения враждебных атак, которое представляет собой шаг к прекращению битвы между атаками и защитами.
Мы предлагаем новый цикл потери согласованности, который обучает CapsNet стимулировать реконструкцию выигрышной капсулы, чтобы она точно соответствовала условному распределению по классам, и показываем, что это может помочь обнаруживать и отражать враждебные атаки.
Мы представляем два метода обнаружения, не зависящие от атак, основанные на несоответствии между реконструкцией «победившей капсулы» чистых и состязательных входных данных, и разрабатываем атаку с учетом защиты, специально предназначенную для атаки на наши механизмы обнаружения.

Ключевые выводы:

Мы представляем новый подход, который представляет собой шаг к прекращению битвы между защитой и атаками путем отражения враждебных атак.
Мы предлагаем новую потерю согласованности цикла, чтобы стимулировать реконструкцию выигрышной капсулы CapsNet, чтобы она точно соответствовала условному распределению классов. Благодаря трем механизмам обнаружения мы можем обнаруживать стандартные состязательные атаки с низким уровнем ложных срабатываний на SVHN и CIFAR-10.
Чтобы специально атаковать наши механизмы обнаружения, мы предлагаем атаку с учетом защиты и обнаруживаем, что наша модель обеспечивает значительно более низкие уровни необнаружения атак с учетом защиты по сравнению с современными методами.
Большая часть необнаруженных атак отражается нашей моделью, чтобы напоминать враждебный целевой класс, и перестать быть враждебным. Это подтверждается исследованием на людях, показывающим, что 70% необнаруженных враждебных атак с использованием черного ящика люди единогласно классифицируют как целевой класс на SVHN.

Статья Отражение состязательных атак находится на arXiv .

Познакомьтесь с авторами Яо Цинь, Николас Фросст, Колин Раффел, Гаррисон Коттрелл и Джеффри Хинтон из Калифорнийского университета в Сан-Диего и Google Brain.

Поделитесь своими исследованиями с помощью Synced

Поделиться моими исследованиями - это новая колонка Synced, в которой ученые приглашают ученых делиться своими научными открытиями с более чем 1,5 млн энтузиастов ИИ со всего мира. Помимо технологических достижений, Поделиться моими исследованиями также требует интересных историй, лежащих в основе исследований, и интересных исследовательских идей. Поделитесь с нами своим исследованием, нажав здесь.

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области искусственного интеллекта? Отчет Тенденции развития технологий искусственного интеллекта вышел!

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.

Отражение враждебных атак

Вопросы по теме