Прогресс с противоборствующими атаками, часть 2 (машинное обучение)

Надежная предварительная подготовка контрастного языка-изображения против состязательных атак (arXiv)

Автор: Вэньхан Ян, Бахаран Мирзасолейман.

Аннотация: Обучение контрастному представлению языка и зрения достигло современной производительности для нулевой классификации благодаря обучению на миллионах пар изображений и подписей, просканированных из Интернета. Однако массивные данные, лежащие в основе крупных мультимодальных моделей, таких как CLIP, делают их чрезвычайно уязвимыми для различных типов атак со стороны злоумышленников, включая целевые и бэкдор-атаки с отравлением данных. Несмотря на эту уязвимость, надежная предварительная подготовка контрастного языка видения против враждебных атак осталась нерешенной. В этой работе мы предлагаем RoCLIP, первый эффективный метод надежной предварительной подготовки (и тонкой настройки) мультимодальных моделей языка видения. RoCLIP эффективно разрушает ассоциацию между отравленными парами изображение-заголовок, рассматривая пул случайных примеров и (1) сопоставляя каждое изображение с текстом, наиболее похожим на его заголовок в пуле, и (2) сопоставляя каждую подпись с изображением. что наиболее похоже на его изображение в пуле. Наши обширные эксперименты показывают, что наш метод делает современные целевые отравления данных и бэкдор-атаки неэффективными во время предварительной подготовки или тонкой настройки CLIP. В частности, RoCLIP снижает вероятность успеха ядовитых и бэкдор-атак до 0\% во время предварительной подготовки и 1\%-4\% во время тонкой настройки, а также эффективно повышает производительность модели.

2. Адаптивные локальные состязательные атаки на 3D-облака точек для дополненной реальности (arXiv)

Автор: Вэйцюань Лю, Шицзюнь Чжэн, Чэн Ван.

Аннотация: Являясь ключевой технологией дополненной реальности (AR), 3D-распознавание и отслеживание всегда уязвимы для враждебных примеров, что создаст серьезные риски для безопасности систем AR. Состязательные примеры полезны для повышения надежности трехмерной модели нейронной сети и повышения стабильности системы дополненной реальности. В настоящее время большинство методов трехмерной состязательной атаки искажают все облако точек для создания состязательных примеров, что приводит к высоким затратам на возмущение и трудностям в восстановлении соответствующих реальных объектов в физическом мире. В этой статье мы предлагаем метод адаптивной локальной состязательной атаки (AL-Adv) на трехмерных облаках точек для создания состязательных облаков точек. Во-первых, мы анализируем уязвимость 3D-модели сети и извлекаем значимые области входного облака точек, а именно уязвимые области. Во-вторых, мы предлагаем адаптивный алгоритм градиентной атаки, нацеленный на уязвимые области. Предлагаемый алгоритм атаки адаптивно назначает различные возмущения в разных направлениях трехмерных координат облака точек. Экспериментальные результаты показывают, что предложенный нами метод AL-Adv обеспечивает более высокий уровень успешных атак, чем метод глобальной атаки. В частности, состязательные примеры, сгенерированные AL-Adv, демонстрируют хорошую незаметность и небольшие затраты на генерацию.

Прогресс с противоборствующими атаками, часть 2 (машинное обучение)

Вопросы по теме