1. Объединение CLIP и StyleGAN с помощью скрытого выравнивания для редактирования изображений(arXiv)

Автор:Ваньфэн Чжэн, Цян Ли, Сяоянь Го, Пэнфэй Ван, Чжунъюань Ван

Аннотация. Манипуляции с изображениями, управляемые текстом, разрабатываются после того, как была предложена языковая модель зрения (CLIP). Предыдущая работа использовала CLIP для разработки цели, основанной на согласованности текста и изображения, для решения этой проблемы. Однако эти методы требуют либо оптимизации времени тестирования, либо кластерного анализа признаков изображения для направления одномодовой манипуляции. В этой статье нам удается достичь интеллектуального анализа различных направлений манипуляции без оптимизации времени вывода, соединив CLIP и StyleGAN с помощью скрытого выравнивания (CSLA). В частности, наши усилия состоят из трех частей: 1) стратегия обучения без данных для обучения латентных картографов для преодоления скрытого пространства CLIP и StyleGAN; 2) для более точного сопоставления предлагается временная относительная согласованность для решения проблемы систематической ошибки распределения знаний между различными скрытыми пространствами; 3) для уточнения отображенного скрытого в пространстве s также предлагается адаптивное смешивание стилей. С помощью этой схемы сопоставления мы можем добиться инверсии GAN, преобразования текста в изображение и манипулирования изображениями на основе текста. Проведены качественные и количественные сравнения, чтобы продемонстрировать эффективность нашего метода.

2.Обратите внимание на пробелы в дистилляции StyleGAN(arXiv)

Автор:Годун Сюй, Юэнань Хоу, Цзывэй Лю, Чен Чэндж Лой

Аннотация: семейство StyleGAN — одна из самых популярных генеративно-состязательных сетей (GAN) для безусловной генерации. Несмотря на впечатляющую производительность, высокие требования к хранилищу и вычислениям препятствуют их развертыванию на устройствах с ограниченными ресурсами. В этой статье представлено всестороннее исследование извлечения из популярной архитектуры, подобной StyleGAN. Наше ключевое понимание заключается в том, что основная проблема дистилляции StyleGAN заключается в проблеме несоответствия выходных данных, когда модель учителя и ученика дает разные выходные данные при одном и том же входном скрытом коде. Стандартные потери при дистилляции знаний обычно терпят неудачу в этом сценарии гетерогенной дистилляции. Мы проводим тщательный анализ причин и последствий этой проблемы несоответствия и определяем, что картографическая сеть играет жизненно важную роль в определении семантической информации сгенерированных изображений. Основываясь на этом выводе, мы предлагаем новую стратегию инициализации модели студента, которая может обеспечить максимальную согласованность вывода. Чтобы еще больше повысить семантическую согласованность между моделями учителя и ученика, мы представляем потерю дистилляции на основе скрытого направления, которая сохраняет семантические отношения в скрытом пространстве. Обширные эксперименты демонстрируют эффективность нашего подхода к дистилляции StyleGAN2 и StyleGAN3, значительно превосходя существующие методы дистилляции GAN. △ Меньше