В которой я пытаюсь расшифровать связь между знаменитой моделью ИИ, используемой для преобразования текста в изображение, и процессом, наблюдаемым в физике.

Неудивительно, что большая часть контента этой статьи была создана с использованием ИИ, включая, конечно же, изображения, изображающие то, что сегодня является одной из самых больших тенденций в цифровом искусстве.

Хотя некоторые из последних языковых моделей, которые быстро стали вирусными и стали использоваться в наших разговорах в последние дни, не обязательно подходят для генерации изображений, в этой статье основное внимание уделяется искусственному интеллекту преобразования текста в изображение, в частности, знаменитой системе под названием Стабильный. Диффузия». Рынок творческих инструментов резко вырос, поскольку недавние технические достижения в создании изображений из текста показали, что такие инструменты, как DALLE от OpenAI или Midjourney, можно использовать для множества приложений. Художники и другие профессионалы используют такие системы для создания контента для маркетинга и рекламы, для заполнения веб-сайтов, для создания брендинга и логотипов и даже для придумывания идей для дизайна пользовательского интерфейса. И это лишь некоторые из потенциальных заинтересованных сторон, заинтересованных в изображениях, созданных с помощью ИИ.

Во время моей попытки понять стабильную диффузию и в разговоре с ChatGPT я быстро понял, что мы стали пренебрегать тем, что такое диффузия на самом деле, или, точнее, связь между моделями диффузии, которые мы используем в машинном обучении, и диффузией. процесс, который мы наблюдаем в физике.

Диффузия (физика)

Слово «диффузия» происходит от латинского слова diffundere, что означает «распространяться».

В физике диффузия — это процесс, происходящий, когда частицы вещества стремятся распространиться из области высокой концентрации в область меньшей концентрации. Этот процесс может происходить как в твердых телах, так и в жидкостях, и он управляется процессом, называемым случайным тепловым движением.

Распространение также связано с концепцией энтропии. Энтропия – это мера беспорядка или случайности системы. В контексте диффузии энтропия системы имеет тенденцию к увеличению по мере того, как частицы вещества становятся более равномерно распределенными по всей системе. Это связано с тем, что процесс диффузии приводит к более хаотичному распределению частиц, что связано с увеличением беспорядка или хаотичности. Например, рассмотрим сосуд, наполненный газом. Если газ изначально сконцентрирован в одной части сосуда, энтропия системы будет низкой. Однако по мере того, как газ диффундирует и распространяется, чтобы заполнить весь контейнер, энтропия системы будет увеличиваться, потому что частицы газа теперь более равномерно распределены по всему контейнеру.

Распространение (машинное обучение)

Диффузия является важной концепцией в самых разных областях, включая физику, химию, биологию, инженерию, экономику и материаловедение. Однако центральная идея диффузии, как описано выше, является общей для всех этих научных областей.

Возвращаясь к стабильной диффузии, техника, представленная летом 2022 года на CVPR, сама по себе является моделью скрытой диффузии, разновидностью глубоких генерирующих нейронных сетей, которые разрушают структуру данных, вводя шум. (пока вся структура не будет устранена). Таким образом, случайность в данных увеличивается вместе с энтропией.

Подобно физике, распределение данных, подобно незажженной ароматической свече, можно равномерно распределить, добавив случайный шум, точно так же, как молекулы аромата имеют тенденцию рассеиваться в воздухе и более равномерно распределяться по комнате после того, как свеча зажжена. сгорел. Однако, в отличие от процесса, происходящего в физике, в машинном обучении диффузия может быть обратимой. Молекулы запаха, которые путешествовали по воздуху, не могут снова превратиться в несгоревшую свечу, хотя система распространения с машинным обучением может научиться восстанавливать разрушенные данные.

Скрытое пространство

По мере развития этой истории последняя концепция скрытого пространства потенциально может рассматриваться как «соединитель» между распространением и генерацией. Связанное со способностью моделей преобразования текста в изображение восстанавливать данные из шума, скрытое пространство — это обычно более низкое пространство, используемое для представления базовой структуры набора данных изображений и текстовых описаний. Он называется «латентным», потому что он не наблюдается непосредственно в данных, а выводится из шаблонов и взаимосвязей, присутствующих в данных.

Одним из способов использования скрытого пространства в моделях стабильной диффузии для генерации текста в изображение является интерполяция между различными текстовыми описаниями и соответствующими изображениями для создания новых изображений, которые являются семантически значимыми и согласуются с заданными текстовыми описаниями. Например, учитывая два текстовых описания и соответствующие изображения, модель может выполнить интерполяцию в скрытом пространстве для создания нового изображения, представляющего собой смесь двух исходных изображений и семантически согласующегося с текстовым описанием.

И в этом заключается магия. Некоторые изображения слишком впечатляющие. Некоторые из них считаются невообразимыми для человека. Непревзойденный. Иногда бесподобный. Пользователь испытывает благоговейный трепет, когда текстовая подсказка на его глазах превращается в красиво оформленное эстетическое изображение размером 512 на 512 пикселей. Этот красивый математический процесс, введение шума в данные, обучение компактному представлению этих данных и обучение генеративной модели обучению выборке точек из скрытого пространства могут привести к беспрецедентным новым формам искусства.

Составление текстовой подсказки никогда не было таким важным и актуальным навыком, как сегодня. До DALLE искусство текстовых подсказок было в основном применимо к поиску Google. И да, это было и будет важным навыком, независимо от того, насколько эффективны наши языковые модели для понимания наших запросов и вопросов. Если вы недавно были в Интернете, модели машинного обучения оказали влияние на вашу жизнь, и это факт. И поскольку GPT-4 слушает, было бы упущением избежать предположения, что такие инструменты ИИ будут продолжать наносить ущерб не только нашей работе, но и нашей повседневной жизни.

Это был мой скромный взгляд на то, что является одним из самых захватывающих научных нововведений нашего времени. Пожалуйста, не стесняйтесь обращаться за любыми комментариями или любыми потенциальными ошибками в моем понимании.