Создание искусственных изображений часов с помощью StyleGAN

Как использовать ИИ для создания настраиваемых изображений роскошных часов

В последние годы новые нейронные сети, называемые «генеративно-состязательными сетями» — для краткости GAN, — смогли проникнуть в области, которые ранее были зарезервированы исключительно для людей. Творчество или искусство обычно не воспринимаются как область компьютеров. Однако с момента возрождения GAN в науке в 2014 году генеративные модели все чаще находят применение в этой области.

В своем блоге я показал, как использовать прогрессивные генеративно-состязательные сети для синтеза изображений для создания художественных образов часов с GAN. Эта статья о настраиваемой генерации изображений часов с помощью StyleGAN, которые выглядят довольно реалистично.

Генеративные состязательные сети

Вместо того, чтобы просто повторять то, что другие очень хорошо и доступно объяснили, я ссылаюсь на эту статью. Короче говоря, архитектура styleGAN позволяет управлять стилем сгенерированных примеров внутри сети синтеза изображений. Это означает, что можно настроить стили высокого уровня (w) изображения, применяя различные векторы из пространства W. Кроме того, можно перенести стиль с одного сгенерированного изображения на другое. Эти стили сопоставляются с подсетями LOD (уровень детализации) генератора, что означает, что эффект этих стилей варьируется от грубого до тонкого.

Документ StyleGAN был выпущен примерно год назад (январь 2019 г.) и показал некоторые значительные улучшения по сравнению с предыдущими генеративно-состязательными сетями. Кроме того, StyleGAN2 был выпущен примерно 5 месяцев назад (декабрь 2019 г.), что добавило некоторые улучшения.

В документе styleGAN использовался набор данных Flickr-Faces-HQ и создаются искусственные человеческие лица, где стиль можно интерпретировать как позу, форму и расцветку изображения. Результаты статьи привлекли некоторое внимание средств массовой информации через веб-сайт: w ww.thispersondoesnotexist.com.

StyleGAN на часах

Я использовал архитектуру styleGAN для тысяч изображений часов (1024x1024). В сети было просмотрено 15 миллионов изображений почти за месяц обучения с RTX 2080 Ti. Результаты намного детальнее, чем в моем предыдущем посте (помимо увеличенного разрешения), а изученные стили сопоставимы с бумажными результатами. Эти изображения не курируются, так что это просто то, что производит GAN.

Мелочи

Вы могли заметить, что самые искусственные изображения показывают определенное время (10:10). Для тех, кто знаком с GAN, сначала это выглядит как своего рода крах режима, но The StyleGAN узнал об этом даже из изображений часов. Самые профессиональные изображения часов показывают это время. Согласно Нью-Йорк Таймс, это из-за аскетизма и симметрии.

Смешение стилей

Теперь давайте посмотрим на перенос стиля с одного сгенерированного изображения на другое.

Поза и форма

Поза часов представлена первыми четырьмя измерениями скрытого вектора стиля. Если мы настроим вектор, мы можем изменить позу сгенерированного изображения, например. мы можем поворачивать часы по осям, а также менять форму самих часов. Еще более интересным является перенос позы и формы, когда мы можем взять позу любых часов и перенести ее на наши целевые часы.

Циферблаты и цифры

Стиль циферблатов, вспомогательных циферблатов и цифр также представлен вектором скрытого стиля (размеры 4–8), и его изменение приводит к тому же эффекту, что и выше. Но мы ясно видим, что изменения больше касаются деталей часов, а не формы и позы.

Цвет и внешний вид

Настройка освещения, фон и цвет часов закодированы в последних измерениях вектора стиля (размеры 8–18). Здесь мы можем управлять цветом и материалом часов, а также фоном и настройкой освещения изображения.

Если вы хотите увидеть, как вы можете применить StyleGAN к вашему пользовательскому набору данных изображений, нажмите здесь!

Ограничения и перспективы

В настоящее время все еще существуют некоторые ограничения для GAN. Например, сложно применить преобразования к пользовательским изображениям, которые не были включены в обучающие данные. Это означает, что невозможно применить изменение стиля к изображениям, которые не были сгенерированы сетью из коробки. Наше исходное изображение всегда должно проецироваться во внутреннее скрытое пространство GAN. Для оригинального StyleGAN есть проект типа StyleGAN-encoder. Для StyleGAN2 уже включен инструмент, который позволяет эту проекцию.

Однако более новые публикации пытаются решить эту проблему, например. Исследователи из Zalando создали GAN, который можно использовать для виртуального одевания фотомодели в различную одежду. А с помощью этого GAN вы можете напрямую применить стиль аниме к вашим собственным изображениям. StarGAN позволяет синтезировать изображения для передачи мимики.