Pixel2Style2Pixel: новая архитектура кодировщика улучшает преобразование изображения лица в изображение

В недавно опубликованной статье Кодирование в стиле: кодировщик StyleGAN для преобразования изображения в изображение исследователи из Penta-AI и Тель-Авивского университета представляют общую структуру преобразования изображения в изображение, получившую название Pixel2Style2Pixel ( pSp).

В отличие от предыдущих методов, в которых используются специализированные архитектуры для конкретных задач, предлагаемая структура предназначена для решения широкого круга задач преобразования изображения в изображение с использованием одной и той же архитектуры - глобального подхода, который позволяет избежать возможного смещения местоположения. Этот метод демонстрирует сильные преимущества в таких задачах, как Face Frontalization, где его кодировщик можно обучить полностью неконтролируемым образом, чтобы выровнять заданное изображение лица с фронтальной стойкой с нейтральным выражением.

Исследователи отметили, что, хотя современный метод создания изображений StyleGAN может создавать изображения с феноменальным реализмом, он также имеет распутанное скрытое пространство W, где можно производить значимые манипуляции. Поскольку многочисленные методы, использующие скрытое пространство, показали многообещающие результаты преобразования изображения в изображение, для исследователей стало обычной практикой кодировать реальные изображения в расширенное скрытое пространство, W +, для широкого спектра приложений, таких как синтез высокого разрешения. , мультимодальный синтез изображений, многодоменный синтез изображений, условный синтез изображений и т. д. Однако выполнение быстрой, прямой и точной выученной инверсии реальных изображений в W + остается проблемой.

Команда сосредоточилась на задаче позднего встраивания пространства, которая направлена на получение вектора, генерирующего желаемое, не обязательно известное изображение. Они предложили новую архитектуру кодировщика, предназначенную для кодирования произвольного изображения непосредственно в W +. Поскольку кодировщик основан на сети пирамид признаков, векторы признаков стиля извлекаются из различных масштабов пирамиды и вставляются непосредственно в фиксированный, переобученный объект генератора StyleGAN в соответствии с техническими пространственными масштабами. Исследователи заметили, что, когда сеть обучается с потерей сходства идентификаторов, она лучше сохраняет идентичность по сравнению с предыдущими прямыми подходами.

В ходе экспериментов команда продемонстрировала, что их фреймворк для преобразования изображений в изображения обеспечивает отличные результаты в различных приложениях. Исследователи предлагают глобальный подход, который может дополнительно поддерживать мультимодальный синтез за счет повторной выборки стилей. Они также предполагают, что некоторые внутренние допущения потребуют дальнейшего изучения. Например, поскольку предлагаемый метод не использует местность, сохранение мелких деталей входных изображений, таких как серьги или детали фона, стало проблемой.

Статья Кодирование в стиле: кодировщик StyleGAN для преобразования изображения в изображение доступна на arXiv.

Репортер: Фаню Цай | Редактор: Майкл Саразен

Синхронизированный отчет | Обзор решений искусственного интеллекта в Китае в ответ на пандемию COVID-19 - 87 тематических исследований от 700+ поставщиков ИИ

В этом отчете предлагается взглянуть на то, как Китай использовал технологии искусственного интеллекта в борьбе с COVID-19. Он также доступен на Amazon Kindle. Наряду с этим отчетом мы также представили базу данных, охватывающую 1428 дополнительных решений искусственного интеллекта из 12 сценариев пандемии.

Нажмите здесь, чтобы найти больше отчетов от нас.

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

Pixel2Style2Pixel: новая архитектура кодировщика улучшает преобразование изображения лица в изображение

Вопросы по теме