Генеративный ИИ: что это такое и как его использовать

Текст в текст, Текст в изображение, Текст в видео, Текст в аудио

Генеративный ИИ

Модели машинного обучения можно разделить на дискриминационные и генеративные:

  • Дискриминативные модели используются в традиционных случаях использования Data Science. Обычно модель учится предсказывать цель на основе распределения признаков. Мы говорим об алгоритмах классификации и регрессии, которые можно сформулировать как Prob(Y|X)
  • Генеративные модели, вместо этого посмотрите на совместное распределение цели и функций для создания новых экземпляров данных. Это то, что сейчас называется ИИ. Математически можно выразить как Prob(X,Y)

Генеративный ИИ (Gen-AI) – это сегмент искусственного интеллекта, изучающий алгоритмы, способные создавать то, чего не существует (новый текст, изображения, видео, аудио). Таким образом, это широкая область, в которой сочетаются компьютерное зрение (CV), обработка естественного языка (NLP) и многое другое.

Обработка естественного языка

Можно сказать, что первый генеративный алгоритм был создан в 1997 году с идеей использования структуры кодировщик-декодер для выполнения машинных переводов. Сегодня мы используем Google Translate каждый день, но модель, которая создает текст, которого раньше не было, была довольно революционной в то время.

Самой большой вехой для NLP на сегодняшний день является изобретение языковых моделей Transformers, новой техники, представленной Google в 2017 году. Transformers используют структуру Encoder-Decoder, которая сочетает в себе 2 вещи:

  • Методы встраивания, что означает преобразование текста в числа, чтобы его можно было использовать в математических операциях.

  • концепция внимания, которая представляет собой способность модели сосредотачиваться на разных частях входной последовательности в разное время.

Компьютерное зрение

С появлением Generative Adversarial Networks(GAN) в 2014 г. дипфейковые изображения и видео начали наводнять Интернет. GAN состоят из двух нейронных сетей, которые работают вместе для создания новых данных, неотличимых от реальных данных. По сути, одна сеть создает новые данные, а другая пытается отличить их от реальных данных. Если он не может определить разницу между сгенерированными данными и реальными данными, то новый контент (то есть изображение) был успешно создан.

Но у GAN есть большая проблема: они редко сходятся, поэтому часто не работают. Поэтому в 2020 году на смену GAN пришли диффузионные модели. По сути, сеть учится генерировать изображения, постепенно добавляя шум, чтобы испортить исходные данные, пока они не станут неузнаваемыми. Затем он учится восстанавливать данные из поврежденной версии. Проще говоря, модель должна испортить изображение, чтобы научиться реверсировать его. Этот процесс полезен для создания реалистичных изображений, подобных исходным данным, на которых он обучался.

Прежде всего, популярные сейчас приложения Gen-AI используют модели Diffusion (например, DALL-E) и Transformers (например, ChatGPT). Теперь давайте рассмотрим различные варианты использования генеративных технологий и какие современные инструментыв настоящее времядоступны в Интернете.

Текст в текст

Машинный перевод, суммирование текста и чат-боты — все это варианты использования преобразования текста в текст, поскольку они принимают текст в качестве входных данных и возвращают новый текст в качестве выходных данных. И все они используют языковые модели Transformers.

ChatGPT» от OpenAI — самая популярная вещь на рынке прямо сейчас. Чат-бот стал мегапопулярным всего за несколько недель (100 миллионов активных пользователей всего за два месяца). Давайте проверим это, спросив о следующем вводном тексте (я буду использовать один и тот же ввод для всех инструментов, которые буду тестировать):

«Девушка-хипстер курит ночью на дождливой крыше, слушая музыку лофи»

Многие компании, включая Microsoft, уже интегрировали ChatGPT. Некоторые известные приложения, использующие движок OpenAI:

  • Replika, известный компаньон (подруга/парень) в чат-боте с искусственным интеллектом, обучался на собственной версии GPT-3.

  • Copy AIпомогает вам писать сообщения, создавая копии. Поэтому, если я введу тот же текст, модель воспримет его как описание продукта и вернет копию для продажи:

  • Grammarly исправляет грамматические ошибки в письме.

Очевидно, что есть и приложения, которые не используют ChatGPT. Вот несколько полезных примеров:

  • AI21, WordTune, расширение для браузера, которое, подобно Grammarly, помогает улучшить ваши навыки письма. Оно работает на основе Языковая модель Jurassic-1 AI21, конкурирующая с GPT-3.

Текст в изображение

Когда вы пишете слова и получаете изображение, это приложение Text-to-Image. Процесс объединяет кодировщики-преобразователи для чтения и обработки ввода текста (NLP), а затем модели диффузии для создания изображения (CV).

DALL-E» от OpenAI был самым популярным продуктом на рынке в прошлом году, когда все публиковали поддельные изображения. Крупнейшим конкурентом DALL-E является Stable Diffusion от StabilityAI.

В основном все онлайн-инструменты используют аналогичные модели. Вы можете попробовать, например, некоторые популярные, такие как Genmo, Photosonic», Craiyon.

Интересным примером является Google DeepDream, эксперимент, который улучшает шаблоны, изученные нейронной сетью, и создает красочные визуальные эффекты, похожие на сон. DeepDream интерпретирует и улучшает узоры, которые он видит на изображении, подобно ребенку, наблюдающему за облаками и пытающемуся распознать случайные формы. Вы можете попробовать здесь.

Преобразование текста в видео

Это окончательное приложение Gen-AI для CV. Как сказал Цукерберг, создавать видео намного сложнее, чем фотографии, потому что помимо правильной генерации каждого пикселя модель также должна предсказывать, как пиксели меняются со временем.

Алгоритмы преобразования текста в видео должны работать с использованием расширенной модели диффузии, которая начинается со случайно сгенерированного шума, а затем постепенно добавляет детали к сгенерированному видео на основе ввода текста. Модель обучается с использованием крупномасштабного набора данных пар текста и видео, что позволяет ей изучать отношения между словами и пикселями.

Мы все ждем Facebook Make-A-Video и Google Imagen», которые выглядят многообещающий. На данный момент не так много предварительно обученных моделей. Доступные, такие как D-ID и Synthesia, в основном используются для преобразования текста в речь аватара ИИ. Я имею в виду следующее: вы вводите сценарий, а аватар его произносит.

Если вы хотите изменить стиль видео, вы можете использовать Pix2Pix, разработанный сообществом HuggingFace:

Забавный факт: кто-то использовал Synthesia для создания Chad GPT — воображаемого финансиста стартапов, с которым можно общаться в Twitter.

Преобразование текста в аудио

Приложения преобразования текста в аудио можно разделить на преобразование текста в речь и преобразование текста в музыку. Они не используют один и тот же алгоритм, так как это две очень разные задачи.

  • Модели преобразования текста в речь — это системы, которые принимают текст в качестве входных данных и генерируют аудиовыход, имитирующий звук человеческой речи. Такие инструменты, как ElevenLabs, позволяют клонировать голос и играть с ним или даже создавать совершенно новый голос, которого не существует. Довольно классным приложением для преобразования текста в речь является Voicemod, которое использует введенный вами текст как текст песни.
  • Модели Text-to-Music создают музыкальный звук из текста, описывающего характеристики музыки. В настоящее время Google MusicLM кажется лучшим, но он еще не выпущен.

Дополнительные инструменты ИИ

  • BoredHumans:потрясающий проект, созданный Rohaan, известной фигурой в пространстве NFT, который предлагает широкий спектр материалов, созданных искусственным интеллектом.

  • Tome: создает презентации только на основе текста, например, Текст в PowerPoint (что безумно полезно).

  • BedTimeStory: создает историю с текстом и изображениями.

  • AI Dungeon:на основе GPT этот генератор игр создает уникальные сюжетные линии на основе выбора игрока, такие как интерактивные истории с текстом и изображениями.

  • Runway ML: платформа для редактирования изображений, видео, аудио и текста, основанная на нескольких инструментах искусственного интеллекта.

В заключение, если вы заинтересовались генеративными моделями и хотите открыть для себя больше приложений, я бы посоветовал посетить этот коллектор вариантов использования Gen-AI, где вы можете найти все популярные приложения и многое другое.

Надеюсь, вам понравилось! Не стесняйтесь обращаться ко мне за вопросами и отзывами или просто поделиться своими интересными проектами и историями.

👉 Давайте на связи 👈