Теперь вы можете создавать высококачественные изображения лиц из грубых или даже неполных эскизов без каких-либо навыков рисования, используя эту новую технику преобразования изображения в изображение! Если у вас такие же плохие навыки рисования, как у меня, вы даже можете настроить, насколько глаза, рот и нос будут влиять на окончательное изображение! Посмотрим, действительно ли это работает и как они это сделали.

Недавние методы глубокого преобразования изображения в изображение позволяют быстро создавать изображения лиц из набросков от руки. Однако существующие решения имеют тенденцию чрезмерно соответствовать эскизам, поэтому требуются профессиональные согласованные эскизы в качестве исходных данных. Шу-Ю Чен и др. просто поделился статьей «DeepFaceDrawing: Deep Generation of Face Images из эскизов», чтобы решить эту проблему. Их ключевая идея состоит в том, чтобы неявно смоделировать пространство форм правдоподобных изображений лиц и синтезировать изображение лица в этом пространстве, чтобы приблизиться к входному эскизу. Их система позволяет пользователям с минимальным обучением рисованию или без него создавать высококачественные изображения лиц из грубых или даже неполных набросков от руки! Этот метод даже точно учитывает намерения пользователя при вводе штрихов, которые больше похожи на мягкие ограничения для управления синтезом изображения. По сути, они используют входные эскизы в качестве мягких ограничений и, таким образом, могут создавать высококачественные изображения лиц даже из этих грубых эскизов.

Большинство таких основанных на глубоком обучении решений для преобразования эскиза в изображение часто принимают входные эскизы почти фиксированными и пытаются вывести отсутствующую текстуру или информацию о затенении между штрихами. В некоторой степени их проблемы формулируются больше как задачи реконструкции с исходными эскизами как жесткими ограничениями. Поскольку они часто тренируют свои сети на основе пар реальных изображений и соответствующих им карт краев, из-за характера управления данными им требуются тестовые эскизы с качеством, аналогичным картам краев реальных изображений, для синтеза реалистичных изображений лиц. Однако такие наброски сложно сделать, особенно для пользователей с небольшим обучением рисованию.

Чтобы решить эту проблему, ключевая идея состоит в том, чтобы неявно изучить пространство правдоподобных эскизов лица из реальных изображений эскиза лица и найти ближайшую точку в этом пространстве для аппроксимации входного эскиза. Таким образом, эскизы можно использовать больше как мягкие ограничения для управления синтезом изображений. И, как видите, результаты потрясающие.

Как показано, структура глубокого обучения принимает на вход эскизное изображение и генерирует высококачественное изображение лица. Архитектура сети состоит из двух подсетей:

Первая подсеть - это модуль Component Embedding (CE), который отвечает за обучение встроенным функциям отдельных компонентов лица с использованием отдельных сетей автокодировщика. На этом этапе эскизы компонентов превращаются в семантически значимые векторы признаков с использованием архитектуры автокодировщика, которая отдельно изучает пять дескрипторов признаков из данных эскиза лица, а именно для «левого глаза», «правого глаза», «носа», «рта». , и «остаток». «Остаточное» изображение, соответствующее «остаточному» компоненту, такое же, как и исходное изображение эскиза, но с удаленными глазами, носом и ртом.

Вторая подсеть состоит из двух подмодулей: Feature Mapping (FM) и Image Synthesis (IS). Хотя FM выглядит похоже на декодирующую часть CE, использование моделей декодирования, преобразующих векторы признаков в пространственные карты признаков, улучшает информационный поток и, таким образом, обеспечивает большую гибкость для объединения отдельных компонентов лица для получения более качественных результатов синтеза. Карты характеристик отдельных компонентов лица затем объединяются в соответствии со структурой лица и, наконец, передаются в IS для синтеза изображения лица, который преобразует их в реалистичное изображение лица с использованием условной архитектуры GAN, которая принимает карты характеристик в качестве входных данных для генератора, с поколение, управляемое дискриминатором. Если вы не знакомы с архитектурой GAN, я предлагаю вам посмотреть видео, которое я сделал, знакомя с ними.

С этой сложной архитектурой они приняли двухэтапную стратегию обучения для обучения своей сети. На этапе 1 обучается только модуль CE с использованием эскизов компонентов для обучения пяти отдельных автокодировщиков внедрению функций. Обучение проводится под самоконтролем, о чем я рассказывал в предыдущем видео и ссылался ниже. На этапе 2 они зафиксировали параметры обученных компонентных кодировщиков и обучили всю сеть с неизвестными параметрами в модулях FM и IS вместе сквозным образом.

Чтобы помочь пользователям, особенно тем, кто мало обучен рисованию, они предоставили эскизы с тенями, которые показаны в этой статье. Для текущего эскиза он находит 10 наиболее похожих изображений компонентов эскиза. Найденные изображения компонентов затем смешиваются в виде теней и помещаются в соответствующие позиции компонентов для создания эскизов, как вы можете видеть слева. Изначально, когда холст пустой, тень получается более размытой. Тень обновляется мгновенно при каждом новом вводе. Синтезированное изображение отображается в окне справа. Пользователи могут выбрать мгновенное обновление синтезированного изображения или вызвать команду «Преобразовать». Конечно, пользователи с хорошими навыками рисования склонны доверять своим рисункам больше, чем тем, у кого мало навыков рисования. Таким образом, они предоставили ползунок для каждого типа компонента, чтобы управлять весами смешивания между нарисованным компонентом и его уточненной версией. Управление степенью интерполяции между созданным вами эскизом и окончательной версией, отображаемой для глаз, носа или рта!

Как качественные, так и количественные оценки показывают превосходящую способность их системы генерировать существующие и альтернативные решения. Просто посмотрите на эти потрясающие результаты в сравнении с альтернативами! Создание реалистичных изображений человеческих лиц с нуля приносит пользу различным приложениям, включая морфинг лица, копирование лица, уголовное расследование, дизайн персонажей, образовательное обучение и многое другое. Благодаря своей простоте, лаконичности и простоте использования эскизы часто используются для изображения желаемых лиц, что делает эту новую бумагу чрезвычайно актуальной.

Конечно, это был простой обзор новой техники преобразования изображения в изображение, которая позволяет быстро создавать изображения лиц из набросков от руки. Я настоятельно рекомендую прочитать их статью и посмотреть их видео-демо, ссылки на оба из них приведены ниже. Если вам понравилось это чтение, посмотрите видео и подпишитесь на канал!

Бумага, код и видео DeepFaceDrawing доступны на их странице:
http://geometrylearning.com/DeepFaceDrawing/