Последняя модель искусственного интеллекта Google позволяет виртуальную примерку одежды с неизменными деталями и гибкими позами

Компания Google представила новую функцию виртуальной примерки для покупок в Google.

Самый простой пример — ввести womens top в поиске Google и прокрутить вниз, чтобы найти блок макета из 4 пакетов.

Традиционно технология виртуальной примерки плохо представляла детали одежды и приспосабливалась к различным позам. Однако инновационная модель искусственного интеллекта Google преодолела эти препятствия, позволив пользователям виртуально примерять одежду с большей точностью и гибкостью.

Ссылка на статью: https://tryondiffusion.github.io/

В прошлом основная проблема таких моделей заключалась в том, чтобы найти баланс между сохранением деталей одежды, возможностью деформации одежды и адаптацией различных поз и форм тела для обеспечения бесшовного и естественного внешнего вида. Важно, когда на ней есть рисунок или детали вроде карманов или редких рукавов.

Революционная модель искусственного интеллекта

Предыдущая работа в этой области разделяла задачу примерки на два этапа: модель деформации и модель смешивания. Они либо сохраняли детали одежды, не обрабатывая изменения позы и формы, либо допускали изменение позы, но скомпрометированы детали одежды.

Однако благодаря интеграции двух моделей UNet TryOnDiffusion успешно устранила эти ограничения. Новая модель выполняет неявную деформацию и смешивание за один проход. Такой унифицированный подход позволяет модели ИИ сохранять детали одежды в одной сети, включая значительные изменения позы и тела.

Посмотрим, как это выглядит на телефоне:

Виртуальная примерка на основе ИИ

Они использовали новую модель искусственного интеллекта на основе диффузии под названием TryOnDiffusion, которая постепенно добавляет дополнительные пиксели (или «шум») к изображению до тех пор, пока оно не станет неузнаваемым, а затем постепенно устраняет шум для восстановления исходного изображения. с безупречным качеством.

Обзор диффузионной модели

Вероятностная диффузионная модель, для удобства называемая «диффузионной моделью», которая демонстрирует многообещающие возможности в создании высококачественных образцов.

Ключевая концепция модели диффузии заключается в ее способности обращать процесс диффузии вспять. Этот процесс включает в себя постепенное добавление шума к данным в направлении, противоположном дискретизации, до тех пор, пока сигнал не перестанет быть различимым. Изучая переходы в этой цепочке, диффузионная модель становится способной генерировать выборки, очень похожие на исходные данные.

Примечательно, что когда процесс диффузии включает в себя небольшое количество гауссовского шума, переходы цепочки дискретизации могут быть упрощены до условных гауссиан. Этот элегантный подход позволяет оптимизировать параметризацию нейронной сети, делая диффузионные модели простыми в определении и эффективными для обучения.

Шаги обучения

На этапе предварительной обработки есть 4 изображения:

Изображение человека путем снятия оригинальной одежды, но с сохранением личности человека.
Человек представляет карту.
Карта позы в одежде.
Целевой предмет одежды сегментируется из изображения предмета одежды.

На следующем шаге в первом распространении Parallel UNet обрабатываются изображение человека и изображение одежды соответственно. Сеть person-UNet берет изображение человека, а UNet одежды берет сегментированное изображение одежды. Позы человека и одежды используются для управления процессом.

Во втором распространении Parallel UNet входными данными являются входные данные этапа предварительной обработки и выходные данные первого распространения Parallel UNet.

Последний шаг — это исключительно шаг сверхвысокого разрешения для увеличения пробного изображения с 256 x 256 до 1024 x 1024 для лучшего качества изображения.

Высококлассное качество изображения

Imagen — это диффузионная модель сверхвысокого разрешения, используемая на последнем этапе для улучшения качества изображения. См. исследование здесь.

Imagen был представлен с мощными возможностями визуализации ввода текста путем создания изображений с высоким разрешением. Используя модель диффузии, Imagen сочетает кодировщик замороженного текста, модели условной диффузии и модели диффузии с условным текстом сверхвысокого разрешения для создания потрясающих визуальных представлений.

Процесс начинается с кодирования входного текста в текстовые вложения с использованием кодировщика замороженного текста. Эти вложения служат мостом между текстовой информацией и последующим процессом генерации изображения.

Imagen включает модели диффузии сверхвысокого разрешения с текстовым условием. В этих моделях применяется пошаговый подход к повышению разрешения сгенерированного изображения сначала с 64x64 до 256x256, а затем с 256x256 до впечатляющего разрешения 1024x1024.

Здесь процесс повышения качества изображения использует только часть процесса Imagen, то есть разрешение от 256x256 до 1024x1024.

Набор данных: график покупок

Функция виртуальной примерки использует возможности Google Shopping Graph, который является самым обширным собранием данных о товарах и продавцах в мире.

Shopping Graph — набор данных в режиме реального времени на основе машинного обучения, включающий продукты и продавцов со всего мира. Этот революционный инструмент служит всеобъемлющим хранилищем, в котором хранятся миллиарды глобальных списков продуктов и подробная информация о каждом элементе.

Заключительные мысли — Как примерить одежду виртуально?

В прошлом виртуальная примерка часто требовала обширных процессов 3D-сканирования для каждого продукта, что ограничивало их масштабируемость и доступность. Предыдущая виртуальная примерка обычно означает технологию покупок на основе VR и AR. Вариант использования больше похож на примерочную AR с использованием фотореалистичной виртуальной одежды, аксессуаров, макияжа и обуви, которые мгновенно отображают стили на телефоне.

Единственная похожая функция виртуальной примерки, которую я нашел, — это Виртуальная примерка Walmart (запущенная в сентябре 2022 г.), которая называлась Zeekit и была приобретена Walmart в 2021 г. Благодаря функции виртуальной примерки Walmart пользователи могут либо загрузите свое фото или используйте фото модели, чтобы виртуально примерить разную одежду.

С появлением технологии генеративного ИИ процесс масштабирования виртуальных приложений стал значительно быстрее и эффективнее. Для виртуальной примерки достаточно изображения одного человека и одного изображения одежды.