Недавний прогресс в исследовании Style Transfer, часть 4 (машинное обучение)

Передача стиля без обучения возникает из h-пространства в моделях диффузии (arXiv)

Автор: Джэсок Чжон, Минги Квон, Ёнджунг Ух.

Аннотация: Диффузионные модели (DM) синтезируют высококачественные изображения в различных областях. Однако контроль над их генеративным процессом все еще туманен, потому что промежуточные переменные в этом процессе тщательно не изучены. В последнее время редактирование DM, подобное StyleCLIP, встречается в узком месте U-Net, называемом h-space. В этой статье мы обнаруживаем, что DM по своей сути имеют распутанные представления контента и стиля результирующих изображений: h-пространство содержит контент, а пропускные соединения передают стиль. Кроме того, мы вводим принципиальный способ вставки содержимого одного изображения в другое, учитывая прогрессивный характер генеративного процесса. Вкратце, учитывая исходный генеративный процесс, 1) признак исходного контента должен постепенно смешиваться, 2) смешанный признак должен быть нормализован для сохранения распределения, 3) изменение пропускных соединений из-за внедрения содержимого должно быть откалибровано. Затем результирующее изображение имеет исходный контент со стилем исходного изображения, точно так же, как перевод изображения в изображение. Интересно, что внедрение содержимого в стили невидимых доменов приводит к переносу стилей, подобному гармонизации. Насколько нам известно, наш метод вводит первую передачу в стиле прямой связи без обучения только с безусловной предварительно обученной замороженной генеративной сетью. Код доступен по адресу https://curryjung.github.io/DiffStyle/.

2. Исследование и оценка создания эффектных панорамных 360∘ сред виртуальной реальности с помощью передачи нейронного стиля (arXiv)

Автор: Яньхэн Ли, Лун Бай, Ясюань Мао, Сюнин Пэн, Цзехао Чжан, Синь Тонг, Рэй ЛК.

Аннотация: Аффективные среды виртуальной реальности (VR) с различным визуальным стилем могут влиять на реакцию пользователей на валентность и возбуждение. Мы применили Neural Style Transfer (NST) для создания 360-градусной виртуальной среды, которая вызывала у пользователей различные реакции валентности и возбуждения. Результаты пользовательского исследования с 30 участниками показали, что генеративные виртуальные среды изменили реакцию возбуждения участников, но не их уровни валентности. Сгенерированные визуальные особенности, например текстуры и цвета, также изменили аффективное восприятие участников. Наша работа дает новое представление о том, как пользователи реагируют на генеративную виртуальную среду, и предлагает стратегию создания аффективной виртуальной среды без изменения контента.

Недавний прогресс в исследовании Style Transfer, часть 4 (машинное обучение)

Вопросы по теме