Дизайн и содержание современных маркетинговых кампаний, веб-сайтов и баннеров становятся все более целенаправленными и сложными, а привлекательный имиджевый контент имеет решающее значение для компаний, стремящихся выделиться на фоне конкурентов. Графические дизайнеры-люди могут тратить много времени на итерацию вперед и назад во время трудоемкого процесса создания контента, который включает в себя выбор, редактирование, полировку и компоновку необработанных изображений для создания удовлетворительного и эффективного маркетингового контента.

В статье Направленная GAN: новая стратегия создания условий для генерирующих сетей исследовательская группа из Adobe делает шаг в направлении оптимизации этого процесса за счет использования генерирующих состязательных сетей (GAN). Предложенная группой команда Directional GAN ​​(DGAN) представляет собой новый и простой подход для создания изображений с высоким разрешением, обусловленных ожидаемыми семантическими атрибутами.

Поскольку процесс создания графического контента очень сложен, было бы идеально, если бы автоматический агент мог мгновенно генерировать контент, давая дизайнерам и клиентам возможность отбрасывать сгенерированные изображения, которые не соответствуют их ожиданиям, с небольшими затратами или бесплатно. Более того, такому агенту будет проще создавать незначительные вариации для персонализации контента для различных целевых сегментов рынка.

Экспоненциальный рост условных GAN в последние годы позволил пользователям устанавливать желаемые атрибуты и генерировать совершенно новые изображения, которые по своей природе аналогичны обучающим данным. Однако этот процесс генерации также сложен, поскольку требует повторного обучения сети с условными потерями, связанными с выбором атрибутов.

Предлагаемый DGAN не только автоматически генерирует контент изображения, но и упрощает задачи условной генерации, обрабатывая процесс генерации независимо от кондиционирования.

Команда резюмирует свой вклад следующим образом:

  1. Предложите подход, использующий направленные векторы, чтобы обеспечить кондиционирование в GAN. Покажите математически, что, используя этот подход, мы можем переместить скрытый вектор в желаемое подпространство за один шаг.
  2. Продемонстрируйте применимость предложенного метода не только для кондиционирования одного атрибута, но и для нескольких атрибутов вместе.
  3. Подход поддерживает ту же оценку Frechet Inception Distance (FID), что и при безусловной генерации, 23 для набора данных всего тела и 5,06 для CelebA-HQ. Следовательно, это позволяет выполнять кондиционирование без ухудшения качества создаваемых изображений.
  4. Подход достаточно универсален, чтобы его можно было применять в любой сети GAN с достаточно разрозненными функциями изображения в скрытом пространстве.

Архитектура DGAN состоит из трех компонентов: GAN, который использует архитектуру StyleGAN в качестве своего генератора и дискриминатора для генерации реалистичных изображений из случайных векторов, блок атрибутов изображения, который идентифицирует метки атрибутов в сгенерированных изображениях, и блок скрытых атрибутов, который изучает разделение гиперплоскостей. или линии регрессии в скрытом пространстве.

При модульном обучении компонентов DGAN GAN и блок атрибутов изображения обучаются независимо друг от друга, в то время как блок скрытых атрибутов требует выходных данных из первых двух, параметры которых замораживаются.

В процессе генерации изображения предлагаемый подход начинается со случайно сгенерированного скрытого вектора, проходящего через блок скрытых атрибутов. Классификаторы / регрессоры в этом блоке генерируют метки, соответствующие каждому атрибуту. Затем они перемещают скрытый вектор в соответствующем направлении вдоль линейной комбинации направленных векторов для получения желаемых результатов.

Команда проверила свой метод в экспериментах с использованием общедоступных наборов данных Multi Pose Virtual Try On (MPV) и теста определения ориентиров Deep Fashion (DF) для обучения генератора и дискриминатора DGAN. Они применили DGAN к набору данных CelebA-HQ для создания изображений лиц с высоким разрешением в зависимости от цвета волос (черный, коричневый и светлый), пола (женский и мужской) и степени улыбки.

При создании условного изображения с помощью DGAN была достигнута точность более 89% в зависимости от пола, точность более 78% для определения цвета волос и низкая среднеквадратичная ошибка (RMSE) 0,134 для степени улыбки.

Результаты показывают, что DGAN может генерировать изображения всего тела человека с высоким разрешением и обеспечивать согласование различных двоичных, многоклассовых и непрерывно значимых атрибутов. DGAN также позволяет в значительной степени контролировать атрибуты в процессе генерации, что может как ускорить, так и улучшить процесс создания изображений для графических дизайнеров и дизайнеров контента.

Статья Направленная GAN: новая стратегия кондиционирования для генерирующих сетей находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен, Чейн Чжан

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.