Как работает передача стиля, часть 4 (искусственный интеллект)

1. Непараллельная передача стилей текста с самопараллельным наблюдением (arXiv)

Автор:Руйбо Лю, Чунъян Гао, Чэньян Цзя, Гуансюань Сюй, Соруш Восуги

Вывод. Производительность существующих моделей переноса стилей текста сильно ограничена непараллельными наборами данных, на которых модели обучаются. В непараллельных наборах данных не существует прямого сопоставления между предложениями исходного и целевого стилей; Таким образом, модели передачи стиля получают лишь слабый контроль над целевыми предложениями во время обучения, что часто приводит к тому, что модель отбрасывает слишком много независимой от стиля информации или совершенно не может передать стиль. В этой работе мы предлагаем LaMer, новую структуру передачи текстового стиля, основанную на крупномасштабных языковых моделях. ЛаМер сначала анализирует примерно параллельные выражения в непараллельных наборах данных с помощью графов сцен, а затем применяет обучение MLE, за которым следует уточнение имитации обучения, чтобы использовать внутренний параллелизм в данных. В двух эталонных задачах (передача настроений и формальностей) и недавно предложенной сложной задаче (передача политической позиции) наша модель достигает качественного прогресса в точности передачи, сохранении контента и беглости. Дальнейшие эмпирические и человеческие оценки показывают, что наша модель не только делает обучение более эффективным, но и генерирует более читаемые и разнообразные выражения, чем предыдущие модели.

2.StyleFool: обман систем классификации видео с помощью передачи стиля (arXiv)

Автор: Юсинь Цао, Си Сяо, Жуокси Сун, Дэруй Ван, Миньхуэй Сюэ, Шэн Вэнь

Вывод:системы классификации идей уязвимы для атак злоумышленников, которые могут создать серьезные проблемы с безопасностью при проверке видео. Текущие атаки методом «черного ящика» требуют большого количества запросов для успеха, что приводит к большим вычислительным затратам в процессе атаки. С другой стороны, атаки с ограниченными возмущениями неэффективны против таких средств защиты, как шумоподавление или обучение противников. В этой статье мы сосредоточимся на неограниченных возмущениях и предложим StyleFool, состязательную атаку видео с помощью черного ящика посредством передачи стиля, чтобы обмануть систему классификации видео. StyleFool сначала использует близость цветовой темы для выбора лучшего стиля изображения, что помогает избежать неестественных деталей в стилизованных видео. Между тем, доверие к целевому классу дополнительно учитывается в целевой атаке, чтобы повлиять на выходное распределение классификатора, перемещая стилизованное видео ближе или даже за границу решения. Затем используется безградиентный метод для дальнейшей оптимизации враждебного возмущения. Мы проводим обширные эксперименты для оценки StyleFool на двух стандартных наборах данных, UCF-101 и HMDB-51. Экспериментальные результаты показывают, что StyleFool превосходит современные состязательные атаки как по количеству запросов, так и по устойчивости к существующим средствам защиты. Мы определили, что 50% стилизованных видео в нецелевой атаке не нуждаются в каком-либо запросе, поскольку они уже могут обмануть модель классификации видео. Кроме того, мы оцениваем неразличимость с помощью пользовательского исследования, чтобы показать, что состязательные образцы StyleFool выглядят незаметными для человеческого глаза, несмотря на неограниченные возмущения.

3. Разыгрывание лотерейных билетов в моделях передачи стилей (arXiv)

Автор: Мэйхао Конг, Цзин Хо, Вэньбинь Ли, Цзин Ву, Ю-Кун Лай, Ян Гао

Аннотация:Перенос стилей добился большого успеха и привлек широкий круг внимания как академических, так и промышленных сообществ благодаря своим гибким сценариям применения. Однако зависимость от довольно большого автокодировщика на основе VGG приводит к тому, что существующие модели передачи стилей имеют высокую сложность параметров, что ограничивает их применение на устройствах с ограниченными ресурсами. По сравнению со многими другими задачами сжатие моделей переноса стилей изучено меньше. Недавно гипотеза лотерейного билета (LTH) продемонстрировала большой потенциал в поиске чрезвычайно разреженных совпадающих подсетей, которые могут достичь номинальной или даже более высокой производительности, чем исходные полные сети при изолированном обучении. В этой работе мы впервые проводим эмпирическое исследование, чтобы проверить, существуют ли такие поддающиеся обучению подсети соответствия в моделях переноса стиля. В частности, мы берем две наиболее популярные модели передачи стиля, то есть AdaIN и SANet, в качестве основных испытательных стендов, которые представляют методы передачи стиля на основе глобального и локального преобразования соответственно. Мы проводим обширные эксперименты и всесторонний анализ и делаем следующие выводы. (1) По сравнению с исправлением кодировщика VGG, модели переноса стилей могут получить больше преимуществ при совместном обучении всей сети. (2) Используя итеративное сокращение амплитуды, мы находим совпадающие подсети с разреженностью 89,2% в AdaIN и 73,7% разреженности в SANet, что демонстрирует, что модели переноса стилей также могут разыгрывать лотерейные билеты. (3) Модуль преобразования признаков также должен быть сокращен, чтобы получить гораздо более разреженную модель, не влияя на существование и качество соответствующих подсетей. (4) Помимо AdaIN и SANet, другие модели, такие как LST, MANet, AdaAttN и MCCNet, также могут разыгрывать лотерейные билеты, что показывает, что LTH можно обобщить на модели передачи различных стилей.

Как работает передача стиля, часть 4 (искусственный интеллект)

Вопросы по теме