1. Tune-A-Video: однократная настройка моделей распространения изображений для преобразования текста в видео (arXiv)

Автор: Джей Чжанцзе Ву, Исяо Гэ, Синьтао Ван, Вэйсянь Лэй, Ючао Гу, Юфэй Ши, Винн Хсу, Ин Шань, Сяоху Ци, Майк Чжэн Шоу

Аннотация: Чтобы воспроизвести успех генерации преобразования текста в изображение (T2I), в недавних работах используются крупномасштабные наборы видеоданных для обучения генератора преобразования текста в видео (T2V). Несмотря на многообещающие результаты, такая парадигма требует значительных вычислительных ресурсов. В данной работе мы предлагаем новую настройку генерации T2V — One-Shot Video Tuning, где представлена ​​только одна пара текст-видео. Наша модель построена на современных диффузионных моделях T2I, предварительно обученных на массивных данных изображений. Мы делаем два ключевых наблюдения: 1) модели T2I могут генерировать неподвижные изображения, представляющие термины-глаголы; 2) расширение моделей T2I для одновременного создания нескольких изображений демонстрирует удивительно хорошую согласованность содержимого. Чтобы лучше изучить непрерывное движение, мы представляем Tune-A-Video, который включает в себя специальный механизм пространственно-временного внимания и эффективную стратегию однократной настройки. При выводе мы используем инверсию DDIM, чтобы обеспечить руководство по структуре для выборки. Обширные качественные и численные эксперименты демонстрируют замечательные возможности нашего метода в различных приложениях.

2.CogVideo: крупномасштабная предварительная подготовка для преобразования текста в видео с помощью преобразователей (arXiv)

Автор: Вэньи Хун, Мин Дин, Вэнди Чжэн, Синхан Лю, Цзе Тан.

Аннотация: Крупномасштабные предварительно обученные преобразователи создали вехи в генерации текста (GPT-3) и преобразования текста в изображение (DALL-E и CogView). Его применение для создания видео по-прежнему сталкивается со многими проблемами: потенциально огромные вычислительные затраты делают обучение с нуля недоступным; Нехватка и слабая актуальность наборов данных текст-видео препятствуют пониманию моделью сложной семантики движения. В этой работе мы представляем преобразователь CogVideo с параметрами 9B, обученный путем наследования предварительно обученной модели преобразования текста в изображение CogView2. Мы также предлагаем иерархическую стратегию обучения с несколькими частотами кадров для лучшего выравнивания текста и видеоклипов. Как (вероятно) первая крупномасштабная предварительно обученная модель преобразования текста в видео с открытым исходным кодом, CogVideo превосходит все общедоступные модели с большим отрывом в машинных и человеческих оценках.