Dall-E, творчество и жирафы на розовых мотоциклах

Наконец-то я получил доступ к Dall-E 2! Прочитав о первой версии, когда она была анонсирована еще в январе 2021 года, прочитав статьи и увидев снимки космонавтов и енотов, я просто хотел заполучить вторую версию, которая была выпущена ранее в 2022 году. И вот она наконец там. Когда я открыл ссылку из приглашения, я снова почувствовал себя ребенком в канун Рождества.

Подожди секунду! Что такое Dall-E снова?

Dall-E — это система искусственного интеллекта, разработанная OpenAI (подробнее см. эту статью). Проще говоря, при наличии текстового описания он сгенерирует набор изображений, соответствующих этому описанию. Он не выполняет поиск в существующей базе данных изображений или не объединяет несколько существующих изображений. Было бы точнее сказать, что он способен преобразовывать текстовый ввод в числовое представление этого текста, и из этого числового представления он может генерировать изображение, содержащее это значение.

Давайте возьмем несколько примеров, чтобы сделать все это более конкретным.

«Картина маслом трицератопса, пьющего чай на террасе ресторана»

«Картина маслом, на которой жираф ест торт, катаясь на розовом мотоцикле» (эта картина была любезно предоставлена моим сыном)

А теперь вы можете сделать вариант фотографии, заменив «картина маслом» на «фотография».

Или пиксель-арт версию.

Первые пару часов я потратил на создание случайных изображений носорога, работающего баристой в кофейне, шиба-ину, плавающего в море, астронавтов, бегущих марафон на Луне, и т. д. и т. д. красивые, а иногда и причудливые творения, которые умеет создавать Dall-E. И это действительно исследование подсознания или регрессия в детство, поскольку я продолжал генерировать изображения динозавров, панд, играющих на гитарах, и других персонажей «Звездных войн».

Нет мануала для этого

Когда я впервые попробовал использовать Dall-E, это было очень похоже на то, как если бы я стоял перед космическим челноком и пытался ударить его палками и камнями, чтобы увидеть, как это работает. Примеры изображений, созданных другими пользователями, и, что более важно, то, как они написали подсказку для своих изображений, были большим вдохновением. Например, классификатор типа искусства (фотография, обложка комикса, 3D-рендеринг, живопись маслом и т. д.) оказывает огромное влияние на общий вид изображения.

Путешествие по случайным дорогам было прекрасным способом узнать, что Dall-E, кажется, знает о Мире, а что игнорирует. Давайте возьмем пример с изображениями, созданными из подсказки «цифровое искусство Джими Хендрикса, играющего на неоново-синем стратокастере на сцене Вудстока в 1969 году».

Мне нравится ощущение этих образов. И у гитариста здесь определенно есть что-то от Джими Хендрикса, хотя на самом деле это не Джими. Есть несколько действительно приятных штрихов, например ремешок в стиле хиппи на картинке в середине верхнего ряда. Однако, что также очень интересно, так это то, что каждое изображение о Джими совершенно неверно. Джими был левшой и играл на переделанном Stratocaster для правшей. На всех изображениях выше изображен гитарист, играющий правой рукой.

Другим примером, который мне показался интересным, были следующие изображения из подсказки «фотография Микеланджело, расписывающего Сикстинскую капеллу в Риме».

По крайней мере, мы не получили черепашку ниндзя. Мы получаем Сикстинскую капеллу и что-то очень похожее на Рим. Однако, если вы попросите художника нарисовать это изображение, вы получите изображение Микеланджело, скорее всего, лежащего на строительных лесах и рисующего на внутренней стене купола капеллы. Еще одно интересное замечание заключается в том, что на всех этих изображениях мы более или менее видим очень похожего человека, но этот человек не похож на изображение Микеланджело, которое мы имеем на современных рисунках. Тюбетейка тоже не то, что надевал бы художник, интересно, это как-то связано с "Римом" или "Сикстинской капеллой"?

Изучение этих ограничений — это способ понять, как общаться с Далл-И и получить правильные образы, которые у нас есть в уме — у него может не быть совершенного понимания окружающего мира, но если мы дадим достаточно подробное описание, оно, безусловно, будет сгенерировать что-то интересное.

Все это очень хорошо — создавать зоопарк животных, участвующих в случайных действиях, но как это можно использовать в реальной жизни?

Помимо наслаждения путешествием по случайным дорогам, по которым хочет прыгнуть воображение, есть довольно много путей, где можно было бы использовать такую технологию.

Искусство для презентаций. Важной частью разработки презентации является выбор правильного изображения, чтобы привлечь внимание аудитории и удивить ее. С Dall-E ваше воображение — это ваш предел, и вы можете создать правильное изображение, которое точно соответствует вашим потребностям. Есть некоторые ограничения — например, Dall-E, кажется, борется с человеческими лицами (особенно с глазами, они, кажется, взяты из анимации Терри Гиллиама), но диапазон возможностей компенсирует эти ограничения. Например, на изображении ниже мне понадобился арт для презентации технологии VR — «фотография команды людей, играющих с VR-устройством». (не смотрите на руки слишком внимательно)

Творческий процесс. В то время как изображение, которое используется в презентации, не нужно полностью полировать, вам может понадобиться что-то гораздо более изысканное, например, для обложки музыкального альбома. Обычный подход заключается в том, что художник вступает в разговор с заказчиком и рисует примеры различных направлений, которые исследуются. Это требует времени, а также требует ограничения выбора. Dall-E может быть прекрасным инструментом для повторения идей и быстрого создания вариантов. Когда художник вступает в разговор с клиентом, он может генерировать изображения на месте, чтобы подтвердить видение клиента. Например, в данном случае «обложка комикса с изображением робота верхом на динозавре».

Функция «Вариации» также позволяет создавать варианты, похожие на определенное изображение. Если покупателю действительно нравится изображение слева, Dall-E может создать аналогичные варианты, как показано ниже.

Кроме того, есть возможность доработать изображение. Обсуждая с клиентом дальше, кажется, что, возможно, динозавры на самом деле не идеальный выбор (я бы категорически не согласился), и они хотели бы увидеть, как это выглядело бы, если бы вместо динозавра робот ехал на мотоцикле. Чтобы попробовать это, мы можем использовать функцию редактирования. Сначала выберите понравившееся изображение, а затем используйте кисть, чтобы скрыть часть, которую вы хотите отредактировать.

А затем предложите Dall-E сгенерировать такое же изображение, но с мотоциклом вместо динозавра.

Эта возможность в режиме реального времени повторять идеи, работать с клиентами и творческими людьми позволит уточнить направление искусства, а затем художник сосредоточится на использовании этого в качестве черновика для создания чистой версии. Это один из самых захватывающих аспектов Dall-E — мощного инструмента, который художники могут исследовать и повторять.

Я тоже хочу поиграть с Dall-E!

По состоянию на 21 июля Open AI объявила, что Dall-E теперь официально находится в бета-версии и предоставляет авторские права на сгенерированные изображения. Вы можете перейти на эту страницу объявлений для получения дополнительной информации. Пробуйте, получайте удовольствие, наслаждайтесь творением и открывайте для себя новые способы его использования!

Поскольку я создал свои изображения с помощью закрытой бета-версии — все изображения в этой статье являются собственностью OpenAI. :)

Dall-E, творчество и жирафы на розовых мотоциклах

Подожди секунду! Что такое Dall-E снова?

Нет мануала для этого

Все это очень хорошо — создавать зоопарк животных, участвующих в случайных действиях, но как это можно использовать в реальной жизни?

Я тоже хочу поиграть с Dall-E!

Вопросы по теме