В последние годы диффузионные модели пережили революционный подъем в машинном обучении, став одним из самых важных достижений в этой области.

Диффузионные модели стали мощным классом генеративных моделей, которые произвели революцию в области компьютерного зрения и не только. Эти модели предназначены для изучения и аппроксимации сложных распределений данных, что позволяет им генерировать высококачественные выборки данных и выполнять широкий спектр задач, связанных с изображениями. Благодаря использованию принципов вероятностного моделирования и стохастических процессов диффузионные модели оказались бесценными при решении различных задач компьютерного зрения и науки о данных.

DALL-E, Imagen и DreamBooth вывели диффузионные модели на новый уровень, раздвинув границы генеративного моделирования. Используя возможности массивных нейронных сетей, эти модели продемонстрировали исключительные возможности в создании высококачественных изображений и понимании сложной визуальной и текстовой информации, демонстрируя замечательный потенциал моделей распространения в современном искусственном интеллекте.

Неравновесная термодинамика для обеспечения глубокого обучения без учителя в моделях диффузии

В 2015 году Джейкоб Золь-Дикштейн в работе «Глубокое обучение без учителя с использованием неравновесной термодинамики» представил концепцию диффузионных моделей в области машинного обучения. Диффузионные модели — это тип генеративной модели, которую можно использовать для изучения распределения данных путем постепенного добавления шума к скрытому представлению данных.

Подход Сола-Дикштейна представляет собой новаторский вклад в область моделей диффузии. Этот новый алгоритм представляет собой мощный метод моделирования вероятностных распределений, обеспечивающий точную выборку и оценку вероятностей. Его эффективность была продемонстрирована на множестве игрушечных и реальных наборов данных, включая сложные наборы данных естественных изображений.

Эффективныйалгоритм глубокого обучения без учителя основан на оценке разворота диффузионной цепи Маркова и преобразовании данных в распределение шума. С увеличением шагов диффузии становится легче оценить обратное распределение. Этот мощный подход точно моделирует сложные распределения данных, сохраняя при этом удобство обучения, выборки и оценки. Его универсальность расширила возможности обучения без учителя и генеративного моделирования, что делает его ценным инструментом для различных приложений в науке о данных и машинном обучении.

p(x^(0..T)) представляет совместное распределение вероятностей выборок данных во времени, от временного шага 0 до T. Каждая выборка данных обозначается x^(t), где t — временной шаг. p(x^((T))) — распределение вероятностей выборок данных на последнем временном шаге T. p(x^(t-1)|x^(t)) — произведение условных вероятностей. Он представляет собой вероятность наблюдения выборок данных на временном шаге t-1 при заданных выборках данных на временном шаге t. Другими словами, он описывает, как данные изменяются с течением времени.

Диффузионный нормализующий поток

В диффузионном нормализующем потоке интеграция стохастических дифференциальных уравнений (СДУ) и нормализующих потоков составляет основу алгоритма. Комбинация этих двух мощных методов обеспечивает эффективное и действенное генеративное моделирование сложных распределений данных, обеспечивая эффективную выборку и оценку правдоподобия.

  1. Стохастические дифференциальные уравнения (СДУ): СДУ представляют собой математическую основу, используемую для описания эволюции случайных процессов в течение непрерывного времени. В контексте моделей распространения SDE обеспечивают способ моделирования постепенного преобразования данных из их исходного распределения в желаемое целевое распределение. Процесс диффузии представлен как непрерывная эволюция данных, когда шум постепенно добавляется к данным или удаляется из них, чтобы преобразовать их в гауссов шум, а затем обратно в целевое распределение.
  2. Нормализация потоков. Нормализация потоков — это класс генеративных моделей, в которых используются обратимые преобразования для преобразования простого распределения вероятностей (например, гауссовского) в сложное распределение данных. Эти преобразования спроектированы так, чтобы быть как обратимыми, так и дифференцируемыми, что позволяет проводить эффективную выборку и оценку правдоподобия. Складывая несколько обратимых преобразований, нормализующие потоки могут обучаться очень выразительным и гибким распределениям данных.

При нормализации диффузионного потока алгоритм включает два нейронных стохастических дифференциальных уравнения (СДУ): прямое СДУ и обратное СДУ. Каждый SDE играет определенную роль в прогрессивном преобразовании данных.

  1. Прямая нейронная SDE. Прямой SDE отвечает за постепенное добавление шума к данным, эффективно преобразовывая его в гауссовский случайный шум. Этот процесс начинается с начальных данных и постепенно вводит шум на каждом этапе, удаляя данные от их исходного распределения.
  2. Обратный нейронный SDE. Обратный SDE, с другой стороны, предназначен для удаления шума, добавленного прямым SDE. Он постепенно, шаг за шагом, обращает процесс преобразования, чтобы восстановить исходное распределение данных из гауссовского шума.

Путем совместного обучения этих двух нейронных SDE с общей функцией стоимости алгоритм стремится сходиться к процессу диффузии. Этот процесс распространения начинается с простого распределения Гаусса (случайный шум) и постепенно развивается, чтобы соответствовать желаемому распределению данных. Роль обратного SDE имеет решающее значение в этом процессе сходимости, поскольку он направляет алгоритм для удаления шума, добавленного прямым SDE, и восстановления распределения данных.

Стабильная диффузия

В традиционных моделях диффузии, поскольку процесс диффузии проходит в несколько этапов, существует риск нестабильности из-за накопления шума. Эта нестабильность может вызвать проблемы с точной оценкой обратного процесса, препятствуя способности модели восстанавливать исходное распределение данных. Стабильная диффузия решает эту проблему, внедряя методы, обеспечивающие стабильность на протяжении всего процесса диффузии.

Стабильная диффузия обеспечивает стабильность на протяжении всего процесса диффузии за счет тщательного контроля добавления и удаления шума на каждом этапе процесса. Основная цель состоит в том, чтобы предотвратить накопление чрезмерного шума, который может привести к нестабильности модели.

Как работает стабильная диффузия?

Стабильная диффузия основана на модели диффузии определенного типа, называемой скрытой диффузией.

Модели скрытой диффузии уменьшают объем памяти и сложность вычислений, применяя процесс диффузии в низкоразмерном скрытом пространстве, создавая сжатые представления изображений. Это отличает их от стандартных моделей распространения и делает их эффективными для генеративного моделирования и обучения без учителя.

Три основных компонента скрытой диффузии включают:

  1. Автоэнкодер (VAE).
  2. Ю-Нет.
  3. Кодировщик текста, например, Кодировщик текста CLIP

1. Автоэнкодер (VAE)

Модель VAE имеет кодировщик, преобразующий изображения в низкоразмерные латентные изображения, используемые в процессе прямой диффузии. Во время логического вывода обратная диффузия генерирует латентные изображения без шума, которые преобразуются обратно в изображения с помощью декодера VAE. Декодер VAE используется исключительно для логических выводов, что упрощает процесс.

2. U-Net

U-Net использует блоки ResNet как в части кодера, так и в части декодера. Кодер сжимает представление изображения до более низкого разрешения, а декодер увеличивает его обратно до исходного изображения без шума. Короткие соединения предотвращают потерю важной информации во время субдискретизации. Кроме того, стабильная диффузия U-Net может обусловливать свой вывод текстовыми вложениями с использованием слоев перекрестного внимания между блоками ResNet.

3. Кодировщик текста

Кодировщик текста преобразует вводимые подсказки, такие как «Астронавт верхом на лошади», в скрытые текстовые вложения, понятные U-Net. Как правило, кодировщик на основе преобразователя сопоставляет входные токены со скрытым встраиванием текста. В Stable Diffusion вместо обучения нового используется предварительно обученный текстовый кодировщик CLIP, CLIPTextModel.

Сравнительный анализ:

В приведенной ниже таблице мы сравниваем три новаторских подхода к моделям диффузии: неравновесная термодинамика для обеспечения глубокого обучения без учителя, нормализующий поток диффузии и стабильная диффузия. Каждый подход вносит свой вклад в неконтролируемое обучение и генеративное моделирование. Мы рассмотрим их подход, стабильность и преимущества, чтобы получить ценную информацию об их потенциальном влиянии на машинное обучение.

Применение моделей распространения:

  • Диффузионные модели могут эффективно удалять шум из изображений, повышая их качество и четкость.
  • Эти модели могут заполнять отсутствующие или поврежденные части изображения, реконструируя полные визуальные эффекты.
  • Модели диффузии могут масштабировать изображения, создавая версии с более высоким разрешением и более мелкими деталями.
  • Они могут создавать новые реалистичные изображения, аналогичные распределению обучающих данных.
  • Модели распространения точно оценивают плотность вероятности точек данных в заданном наборе данных.

Заключение:

Путешествие диффузионных моделей было замечательной одиссеей инноваций в неконтролируемом обучении и генеративном моделировании. От основополагающих подходов, таких как глубокое обучение без учителя с использованием неравновесной термодинамики, интеграции SDE и нормализации потоков в диффузионно-нормализующем потоке, до революционной эффективности стабильной диффузии через низкоразмерные скрытые пространства.

Достижения в области распространения будут способствовать дальнейшим прорывам в исследованиях ИИ, предоставляя специалистам по данным и инженерам передовые инструменты синтеза и анализа данных.