StableDiffusion – это модель машинного обучения, которая создает изображения из текста. Обученная модель находится в открытом доступе, а изображения можно свободно генерировать на ПК.

Обзор

StableDiffusion – это модель машинного обучения для создания изображений из текста, опубликованная в августе 2022 года. Такие службы, как DALLE2 и Midjourney, существуют для создания изображений из текста, но в обоих случаях обученные модели являются частными и должны быть доступны через веб-службу. StableDiffusion позволяет пользователям свободно создавать изображения на своих ПК, поскольку обученные модели общедоступны.





Применение

Чтобы использовать Stable Diffusion в Windows, GRisk предоставляет готовые двоичные файлы, доступные по ссылке ниже.



После распаковки Stable Diffusion GRisk GUI.rar запустите Stable Diffusion GRisk GUI.exe

Поскольку параметры по умолчанию не создают правильного изображения, установите Steps на 150, а Resolution на 512. Затем введите текстовое приглашение и нажмите Render, чтобы сгенерировать изображение. Сгенерированные изображения сохраняются в папке результатов.

Когда количество слов в приглашении невелико, вывод имеет тенденцию быть нестабильным, возможно, потому, что в векторе признаков недостаточно информации для построения изображения. Поэтому лучше предоставить как можно более подробную информацию о желаемом изображении.

Генерация изображения занимает около 32 секунд на машине, оснащенной RTX3080.

Набор данных

Команда StableDiffusion была обучена набору данных LAION-5B, содержащему 5,85 миллиарда пар изображения/текста.



Содержимое набора данных можно найти на следующей странице. В поиске используется встраивание CLIP, что указывает на то, что CLIP также эффективен для поиска изображений.



StableDiffusion обучался на изображениях с LAION-2B с разрешением 256x256, затем на 170 миллионах изображений с разрешением 512x512 с LAION-5B.



Продолжительность обучения

Обучение StableDiffusion заняло 150 000 часов на компьютере AWS A100 с 40 ГБ видеопамяти.



Архитектура

StableDiffusion использует текстовый кодировщик из CLIP и автокодировщик из UNetдля построения LatentDiffusionModel (модель распространения), затем окончательное изображение.

Архитектура генерации изображений аналогична DALLE-2, в которой также используются функции CLIP и модели распространения.

CLIP обучен на 400 миллионах изображений в Интернете и может определить сходство между любым текстом и изображением. В отличие от обычных классификаторов, он обучается с помощью текстовых пар вместо меток, что позволяет добиться нулевой классификации изображений даже для неизвестных изображений. Поскольку векторы признаков CLIP содержат информацию, указывающую значение изображения, их можно применять не только для классификации изображений, но и для их создания.



Во-первых, кодировщик текста CLIP используется для получения векторов признаков из текста. После преобразования каждого слова в вектор слова преобразователь извлекает векторы признаков, которые указывают значение текста.

Из вектора признаков, созданного кодировщиком текста, модель диффузии в пространстве векторов признаков используется для создания вектора признаков для кодировщика изображений.

Наконец, декодер изображений используется для преобразования вектора признаков в изображение.

В диффузионной модели векторы признаков генерируются, начиная с шума и многократно удаляя шум. UNet используется для шумоподавления.

Он использует то же руководство без классификатора, что и GLIDE.



Поддержка в alia SDK

Для StableDiffusion в настоящее время требуется Pytorch. Мы изучаем возможность преобразования модели в ONNX, чтобы запустить ее с помощью ailia SDK.

Топор Инк. разработал ailia SDK, который обеспечивает кросс-платформенный быстрый вывод на основе графического процессора.

ax Inc. предоставляет широкий спектр услуг от консалтинга и создания моделей до разработки приложений и SDK на основе ИИ. Не стесняйтесь связаться с нами для любого запроса.