Публикации по теме 'adversarial-attack'


Являются ли многоязычные языковые модели хрупкими?
Поскольку большие языковые модели продолжают достигать самых современных (SOTA) результатов в задачах ответов на вопросы (QA), исследователи поднимают несколько собственных вопросов относительно надежности этих моделей. Команда IBM недавно провела всесторонний анализ английского QA, который показал, что модели SOTA могут быть разочаровывающе ненадежными, когда представлены данные, сгенерированные злоумышленниками. Предыдущие исследования стратегии атак были сосредоточены на..

Обзор литературы - Создание примеров состязательности естественного языка
Использование генетических алгоритмов для состязательной атаки на основе подстановки синонимов Модели глубокого обучения уязвимы для состязательных примеров: возмущения входных данных, незаметные для человека, могут привести к неправильной классификации хорошо обученной глубокой нейронной сети. Несмотря на то, что примеры состязательности изучаются в области компьютерного зрения, область обработки естественного языка (НЛП) остается относительно новой. Ключевая трудность изучения..

Противодействие враждебным атакам с помощью вариационных автоэнкодеров на основе гауссовской смеси
Глубокие нейронные сети потрясающие! Они могут научиться классифицировать изображения по различным категориям, просматривая более миллиона изображений, выполнять перевод между многочисленными языковыми парами, преобразовывать нашу речь в текст, создавать произведения искусства (которые даже продаются на аукционах!) И преуспеть в множестве языковых пар. другие интересные и полезные приложения. Легко быть очарованным историей успеха глубокого обучения, но надежны ли они? Как оказалось, их..

Отражение враждебных атак
Материалы предоставлены Яо Цинь, первым автором статьи "Отражение состязательных атак". Был непрерывный цикл, когда более сильная защита от враждебных атак впоследствии была нарушена более продвинутой атакой, ориентированной на защиту. Мы представляем новый подход к завершению этого цикла, в котором мы «отклоняем» враждебные атаки, заставляя злоумышленника производить входные данные, семантически напоминающие целевой класс атаки. С этой целью мы сначала предлагаем более сильную..

Состязательная атака с использованием генетического алгоритма
Состязательные атаки на модели машинного обучения были горячей темой исследований в последний год. Хотя многие команды работают над пониманием последствий состязательного подхода, это все еще новая область. Существует два основных подхода: Оптимизация по методу белого ящика требует доступа к обученной архитектуре модели и весам, а также использует ее свойство дифференцируемости для создания выборки противников. Оптимизация черного ящика рассматривает модель как объект с..