Кажется, что модель Google превосходит модель OpenAI, или нет?

Если вы думали, что Dall-E 2 показал впечатляющие результаты, подождите, пока вы не увидите, на что способна эта последняя модель Google Brain. Dalle-e фантастичен, но ему часто не хватает реализма, что команда стремилась решить с помощью Imagen, новой модели. На веб-сайте своего проекта они публикуют ряд результатов, а также созданный ими тест для оценки моделей преобразования текста в изображение, где они явно превосходят алгоритмы создания изображений Dall-E 2 и более ранние.

По мере того, как мы изучаем все больше и больше алгоритмов преобразования текста в изображение, становится все труднее сравнивать результаты — если только мы не предполагаем, что результаты ужасны, что мы часто делаем.
Но эта модель, а также Dell-e 2 , бросить вызов шансы.

Вкратце: это новая модель преобразования текста в изображение, сравнимая с Dalle-E 2, но, по мнению тестировщиков, она более реалистична.

Итак, как и в случае с Dall-E, о котором я писал около месяца назад, эта модель берет текст вроде «Золотистый ретривер в синем клетчатом берете и водолазке с красными точками» и пытается сделать из него фотореалистичное изображение.
Главное здесь то, что Imagen может воспринимать не только текст, но и создаваемые им визуальные эффекты, которые более реалистичны, чем любые предыдущие попытки.

Конечно, когда я говорю понять, я имею в виду его собственное понимание, отличное от нашего. Модель не может понять текст или изображение, которое она создает. Он, несомненно, что-то знает об этом, но в основном он понимает, как этот конкретный тип текста, включая эти элементы, должен отображаться с использованием пикселей на изображении. Однако, когда мы изучаем результаты, кажется, что он понимает, что мы ему отправляем!

Конечно, вы можете обмануть его какими-то причудливыми предложениями, которые не кажутся реальными, такими как это, но иногда это перехитрить ваше воображение и сделать что-то действительно замечательное.

Что еще интереснее, так это то, как это работает с использованием модели распространения, о чем я никогда не говорил на канале. Однако, прежде чем мы сможем использовать эту модель распространения, мы должны сначала понять ввод текста. В этом также заключается фундаментальное отличие Dall-e от остальных. Чтобы понять материал так же хорошо, как система ИИ, они использовали большую текстовую модель, похожую на GPT-3. Вместо того, чтобы обучать текстовую модель вместе с моделью генерации изображений, они просто используют большую предварительно обученную модель, которая заморожена, чтобы она не менялась на протяжении всего обучения модели генерации изображений. Согласно их исследованию, это привело к значительно более высоким результатам, и модель, по-видимому, лучше понимала язык.

Таким образом, этот текстовый модуль — это то, как модель понимает текст, и это знание представлено в кодировках, которые модель научили делать с массивными наборами данных для преобразования текстовых входных данных в пространство информации, которое она может использовать и понимать. Теперь мы должны использовать эти измененные текстовые данные для создания изображения, для чего они использовали модель диффузии, как я уже говорил ранее.

Но, прежде всего, что такое диффузионная модель?

Диффузионные модели — это генеративные модели, которые узнают, как многократно обращать гауссовский шум, чтобы преобразовать случайный гауссовский шум в изображения. Это эффективные модели для сверхвысокого разрешения или других преобразований изображения в изображение, и в этой ситуации они используют модифицированную архитектуру U-Net.

По сути, модель обучена очищать изображение от чистого шума, который они ориентируют, используя текстовые кодировки и технику, называемую управлением без классификатора, которая, по их утверждению, имеет решающее значение для качества результатов и подробно описана в их работе. По ссылке в ссылках ниже я позволю вам прочитать ее для получения дополнительной информации об этой стратегии.

Итак, теперь у нас есть модель, которая может брать случайный гауссовский шум и нашу кодировку текста и удалять из него шум, используя кодировки текста в качестве ориентира для получения нашего изображения. Но, как вы можете видеть на диаграмме выше, это не так просто, как кажется. Изображение, которое мы только что создали, довольно скромное, поскольку для большего изображения потребовалось бы гораздо больше вычислений и гораздо большая модель, что нецелесообразно. Вместо этого мы создаем фотореалистичное изображение, используя только что описанную модель диффузии, а затем постепенно повышаем качество изображения, используя различные модели диффузии. Опять же, нам нужен шум, а не изображение, поэтому мы загрязняем это изображение с низким разрешением некоторым гауссовским шумом и обучаем нашу вторую модель диффузии, чтобы улучшить его.

Затем, с другой моделью, мы повторяем эти два этапа, но на этот раз, используя только части изображения, чтобы достичь того же коэффициента масштабирования, оставаясь при этом вычислительно осуществимым.

И вот оно! В итоге мы получаем наше фотореалистичное изображение с высоким разрешением!

Конечно, это был лишь краткий обзор этой увлекательной новой модели и ее впечатляющих результатов. Я настоятельно рекомендую вам прочитать их прекрасную работу, чтобы лучше понять их методологию и тщательно изучить их выводы.

Считаете ли вы, что результаты эквивалентны результатам Dell-e 2? Это к лучшему или к худшему? Я считаю, что теперь это соревнование dall-major e. Пожалуйста, дайте мне знать, что вы думаете об этой последней версии Google Brain, а также пояснения.