Введение

DALL-E 2 от OpenAI стал популярным в этом году благодаря своим невероятным возможностям создания самых разнообразных изображений из любого типа вводимого пользователем текста. Я предполагаю, что Марк Цукерберг увидел это и подумал про себя: «Facebook мог бы быть лучше». Итак, ближе к концу сентября Meta, урожденная Facebook AI, выпустила Make-A-Video, свою модель преобразования текста в видео, чтобы по-своему превзойти DALL-E.

Make-A-Video – это модель преобразования текста в видео (T2V), на ступень выше DALL-E, модели преобразования текста в изображение (T2I). Как следует из названия, пользователь вводит текст того, что он хочет сгенерировать, а модель выводит короткое видео, соответствующее этому вводу. Пользователь также может ввести желаемую частоту кадров, которую модель будет использовать для вывода.

Как это работает?

Так как же работает Make-A-Video? На самом деле Make-A-Video — это шесть разных моделей, каждая из которых обучается независимо друг от друга, а затем запускается последовательно, чтобы перейти от текста к финальному видео. Это можно рассматривать как 3 отдельные части процесса:

  1. CLIP кодировщик текста C(x) для получения входного текста x и вывода встраивания текста CLIP.
  2. Предыдущая модель P(x, C(x)) для получения входного текста и его встраивания и вывода вложенного изображения. По сути, это то же самое, что и в DALL-E 2, модель преобразования текста в изображение.
  3. Пространственно-временной декодер D, который встраивает изображение y и выводит 16 кадров 64x64 для видео.
  4. Сеть интерполяции кадров F, которая принимает 16 кадров и интерполирует их до требуемой входной частоты кадров (fps).
  5. Сеть сверхвысокого разрешения SR_t^l, которая масштабирует видео с 64 x 64 до 256 x 256 в пространственном и временном измерении.
  6. Сеть сверхвысокого разрешения (SRh), которая увеличивает разрешение видео с 256 x 256 до 768 x 768 только в пространственном измерении.

Первоначальная модель преобразования текста в изображение основана, как вы, наверное, и ожидали, на DALL-E 2. Вы можете прочитать мою предыдущую статью о DALL-E 2 и моделях распространения, чтобы понять, как те работают. Декодер основан на диффузионной сети U-Net, но с измененными слоями свертки и внимания для работы с пространственными и временными измерениями, чтобы он мог работать с видео. Все части конвейера этой модели являются диффузионными моделями.

Точно так же первая сеть сверхвысокого разрешения также использует эти пространственные и временные слои. Однако вторая сеть сверхвысокого разрешения этого не делает из-за ограничений памяти, возникающих из-за необходимости иметь дело с видеоданными 768x768. Использование сверхвысокого разрешения в пространственных и временных измерениях работает лучше, чем просто независимое выполнение сверхвысокого разрешения кадр за кадром, потому что необходимо обеспечить согласованность масштабирования кадров. Авторы пытаются обойти это во второй сети сверхвысокого разрешения, используя одинаковую инициализацию шума для каждого кадра, чтобы стимулировать галлюцинации одних и тех же деталей.

Преимущества и ограничения

У Make-a-Video довольно много преимуществ по сравнению с другими предыдущими методами T2V, и все они связаны с тем, как он использует модель T2I в качестве отправной точки, а затем превращает встраивание этого изображения в видео. Во-первых, модели T2V не нужно изучать визуальные и мультимодальные представления с нуля, поскольку она может заимствовать предварительно обученные модели T2I. Во-вторых, не требуются парные данные текст-видео, для которых не так много масштабных и разнообразных наборов данных. Вместо этого он может использовать широкий спектр доступных графических данных. В-третьих, видео, которые он может генерировать, наследует разнообразие и обширность моделей генерации изображений, поэтому он может обрабатывать все странные вводы текста, которые также может обрабатывать DALL-E 2.

Однако результаты, которые может генерировать Make-a-Video, все еще довольно ограничены. Из-за того, что в качестве отправной точки используется T2I, он не может изучать ассоциации, которые существуют только между текстом и видео. Например, указав «машет слева направо», поскольку, если бы вы только что увидели изображение человека с поднятой рукой, вы не смогли бы сказать, машет ли он в середине слева направо или справа налево. . В настоящее время модель также не может создавать более длинные видео, не может создавать видео с несколькими сценами и не может создавать видео, в которых происходит несколько событий. По сути, он не может изображать подробные истории, только короткие моменты.

Заключение

С тех пор, как DALL-E 2 публично появился в популярных СМИ, было много споров о том, заменят ли модели искусственного интеллекта художников в ближайшем будущем. Я вполне уверенно могу сказать, что подобных споров о том, заменят ли модели видеогенерации ИИ фильмы, создателей контента на Youtube или даже короткие TikTok в ближайшее время, НЕ будет. По-прежнему существуют довольно серьезные ограничения на то, что модель способна создать визуально, и мы даже не коснулись того, что в видео еще нет звука. На данном этапе правильнее будет назвать его Make-A-Gif, а не Make-A-Video. Результаты довольно крутые, но все еще довольно ограниченные, и доступ к модели также все еще находится в ограниченном доступе, поэтому я даже не могу с ней поиграться. Эпоха генерируемых ИИ фильмов еще далека, но это можно считать маленьким шагом на пути к ней.

Рекомендации