StableDiffusion: модель машинного обучения для создания изображений из текста

StableDiffusion – это модель машинного обучения, которая создает изображения из текста. Обученная модель находится в открытом доступе, а изображения можно свободно генерировать на ПК.

Обзор

StableDiffusion – это модель машинного обучения для создания изображений из текста, опубликованная в августе 2022 года. Такие службы, как DALLE2 и Midjourney, существуют для создания изображений из текста, но в обоих случаях обученные модели являются частными и должны быть доступны через веб-службу. StableDiffusion позволяет пользователям свободно создавать изображения на своих ПК, поскольку обученные модели общедоступны.

GitHub — CompVis/stable-diffusion
Stable Diffusion стал возможен благодаря сотрудничеству со Stability AI и Runway и основан на нашем предыдущем…github.com

Синтез изображений высокого разрешения с использованием моделей скрытой диффузии
путем разложения процесса формирования изображения на последовательное применение шумоподавляющих автоэнкодеров, моделей диффузии…arxiv.org

Применение

Чтобы использовать Stable Diffusion в Windows, GRisk предоставляет готовые двоичные файлы, доступные по ссылке ниже.

Стабильный графический интерфейс Diffusion GRisk 0.1
Для этого проекта требуется карта Nvidia, которая может работать с CUDA. С картой с 4 видеопамятью она должна генерировать изображения 256X512. Это…grisk.itch.io

После распаковки Stable Diffusion GRisk GUI.rar запустите Stable Diffusion GRisk GUI.exe

Поскольку параметры по умолчанию не создают правильного изображения, установите Steps на 150, а Resolution на 512. Затем введите текстовое приглашение и нажмите Render, чтобы сгенерировать изображение. Сгенерированные изображения сохраняются в папке результатов.

Когда количество слов в приглашении невелико, вывод имеет тенденцию быть нестабильным, возможно, потому, что в векторе признаков недостаточно информации для построения изображения. Поэтому лучше предоставить как можно более подробную информацию о желаемом изображении.

Генерация изображения занимает около 32 секунд на машине, оснащенной RTX3080.

Набор данных

Команда StableDiffusion была обучена набору данных LAION-5B, содержащему 5,85 миллиарда пар изображения/текста.

LAION-5B: НОВАЯ ЭРА ОТКРЫТЫХ КРУПНОМАСШТАБНЫХ МУЛЬТИМОДАЛЬНЫХ НАБОРОВ ДАННЫХ | LAION
автор: Romain Beaumont, 8 августа 2022 г. Мы представляем набор данных из 5,85 миллиардов пар изображение-текст, отфильтрованных с помощью CLIP, что в 14 раз больше, чем…laion.ai

Содержимое набора данных можно найти на следующей странице. В поиске используется встраивание CLIP, что указывает на то, что CLIP также эффективен для поиска изображений.

Клип спереди
Клип frontrom1504.github.io

StableDiffusion обучался на изображениях с LAION-2B с разрешением 256x256, затем на 170 миллионах изображений с разрешением 512x512 с LAION-5B.

CompVis/stable-diffusion · Hugging Face
Редактировать карточку модели Stable Diffusion — это скрытая модель диффузии текста в изображение, способная генерировать фотореалистичные изображения… Huggingface.co

Продолжительность обучения

Обучение StableDiffusion заняло 150 000 часов на компьютере AWS A100 с 40 ГБ видеопамяти.

stable-diffusion/Stable_Diffusion_v1_Model_Card.md в main · CompVis/stable-diffusion
Эта карточка модели посвящена модели, связанной с моделью Stable Diffusion, доступной здесь. Разработчик: Робин…github.com

Архитектура

StableDiffusion использует текстовый кодировщик из CLIP и автокодировщик из UNetдля построения LatentDiffusionModel (модель распространения), затем окончательное изображение.

Архитектура генерации изображений аналогична DALLE-2, в которой также используются функции CLIP и модели распространения.

CLIP обучен на 400 миллионах изображений в Интернете и может определить сходство между любым текстом и изображением. В отличие от обычных классификаторов, он обучается с помощью текстовых пар вместо меток, что позволяет добиться нулевой классификации изображений даже для неизвестных изображений. Поскольку векторы признаков CLIP содержат информацию, указывающую значение изображения, их можно применять не только для классификации изображений, но и для их создания.

CLIP: изучение переносимых визуальных моделей на основе наблюдения за естественным языком
Это введение в「CLIP」, модель машинного обучения, которую можно использовать с ailia SDK. Вы можете легко использовать этот…medium.com

Во-первых, кодировщик текста CLIP используется для получения векторов признаков из текста. После преобразования каждого слова в вектор слова преобразователь извлекает векторы признаков, которые указывают значение текста.

Из вектора признаков, созданного кодировщиком текста, модель диффузии в пространстве векторов признаков используется для создания вектора признаков для кодировщика изображений.

Наконец, декодер изображений используется для преобразования вектора признаков в изображение.

В диффузионной модели векторы признаков генерируются, начиная с шума и многократно удаляя шум. UNet используется для шумоподавления.

Он использует то же руководство без классификатора, что и GLIDE.

GLIDE: на пути к созданию и редактированию фотореалистичных изображений с помощью текстовых диффузионных моделей
Недавно было показано, что диффузионные модели создают высококачественные синтетические изображения, особенно в сочетании с…arxiv.org

Поддержка в alia SDK

Для StableDiffusion в настоящее время требуется Pytorch. Мы изучаем возможность преобразования модели в ONNX, чтобы запустить ее с помощью ailia SDK.

Топор Инк. разработал ailia SDK, который обеспечивает кросс-платформенный быстрый вывод на основе графического процессора.

ax Inc. предоставляет широкий спектр услуг от консалтинга и создания моделей до разработки приложений и SDK на основе ИИ. Не стесняйтесь связаться с нами для любого запроса.