Революция в редактировании видео с помощью ИИ (объяснение документа Text2Live)

Будучи создателем контента, я всегда задавался вопросом, существует ли способ, с помощью которого мы можем быстро редактировать видео так, как мы хотим, просто упомянув о наших потребностях и получив на выходе отредактированное видео.
Скажем, для Например, что, если бы мы могли просто сказать: «Эй, ИИ, измени фон этого видео на остров с красивым песком и кристально чистыми бирюзовыми водами», и это бы волшебным образом изменить его без каких-либо действий с программным обеспечением для редактирования видео?

С появлением статьи Text2Live от исследовательской группы Института науки Вейцмана и NVIDIA индустрия создания видео/контента должна совершить революцию, поскольку она будет делать то же самое, что я только что упомянул. В этой статье рассказывается об их подходе и достижениях в написании статьи Text2Live, нулевой, управляемой текстом, техники манипулирования внешним видом для естественных изображений и видео.

Введение

В этой статье представлена управляемая текстом структура для выполнения локализованных семантических изменений существующих объектов в реальных изображениях и видео. Авторы используют простые текстовые подсказки для выражения целевого редактирования, что позволяет интуитивно и гибко манипулировать семантическим внешним видом. Платформа использует представление, полученное с помощью предварительно обученной модели CLIP, и предлагает новый подход к многоуровневому редактированию с текстовым управлением, представленный слоем RGBA, для управления контентом и локализацией сгенерированного редактирования. Вклад этой работы — сквозная структура с текстовым управлением для реального редактирования изображений и видео, а также новый многоуровневый подход к редактированию и целевая функция.

Редактирование многослойных изображений и видео с текстовым сопровождением

Их подход к редактированию изображений и видео основан на использовании простых текстовых подсказок для внесения семантических и локализованных изменений, таких как изменение текстур объектов или добавление сложных полупрозрачных эффектов, таких как дым или огонь. Для этого они использовали предварительно обученную модель CLIP для обучения генератора с одним входным изображением или видео.

Одной из сложностей этой задачи является контроль локализации и сохранение оригинального контента при получении высококачественных результатов. Предлагаемое решение включает в себя три ключевых компонента:

Использование многоуровневого подхода к редактированию, при котором генератор выводит слой RGBA, который добавляется к входному изображению. Это позволяет нам контролировать содержание и степень редактирования с помощью специальных потерь.
Внедрение явного сохранения контента и потери локализации для сохранения исходного контента и управления локализацией редактирования.
Создание внутреннего генеративного априора за счет использования дополненных примеров, обучение генератора выполнению текстового редактирования на большем и более разнообразном наборе примеров.

Текст в слой редактирования изображения

Из рис. (2) видно, что модель принимает исходное изображение и текстовую подсказку в качестве входных данных и выводит отредактированное изображение. Платформа состоит из генератора, который синтезирует слой редактирования (цветное изображение и карту непрозрачности) и функции потерь, которая управляет процессом генерации.
Функция потери включает три термина:
(1) потеря композиции, которая побуждает окончательное изображение соответствовать целевому тексту подсказки
(2) потеря экрана, которая обеспечивает прямой контроль над редактированием layer
(3) Потеря сохранения структуры, помогающая сохранить исходную структуру исходного изображения.

Авторы используют косинусное расстояние между вложениями изображений и текстов в качестве метрики потерь и увеличивают каждое изображение, чтобы получить несколько представлений для повышения надежности модели.

Текст в слой редактирования видео

В документе обсуждается структура редактирования видео с применением метода нейронных многоуровневых атласов (NLA) для достижения согласованных во времени результатов. NLA — это метод, который разбивает видео на набор 2D-атласов и сопоставляет каждое местоположение видео с соответствующим 2D-положением в атласах, а также вычисляет значение непрозрачности переднего плана.
Затем в документе описывается метод создания 2D-атласа редактировать слои, где генератор берет двухмерный атлас в качестве входных данных и создает отредактированную версию атласа на основе целевого текста.
Слой редактирования атласа сопоставляется с видео и смешивается с исходными кадрами с использованием предсказанных сопоставлений UV (относится к процессу проецирования поверхности 3D-объекта). на 2D-плоскость, чтобы создать текстурную карту, которую можно применить к 3D-объекту) и прозрачность переднего плана, в результате получается видео, в котором каждый кадр соответствует целевому текстовому описанию.

Основной недостаток использования только изображения атласа заключается в том, что это может привести к неравномерному искажению исходных структур и игнорированию разнообразной информации, имеющейся в видео. Чтобы преодолеть эти недостатки, авторы сопоставляют редактирование атласа обратно с видео и применяют потери к полученным отредактированным кадрам.
Процесс обучения включает в себя создание набора данных непосредственно из атласа и оптимизацию генератора с использованием целевой функции (LText2LIVE) для минимизации разницы между входными и выходными кадрами.

Заключение

В этой статье представлен новый подход к семантическому, локализованному текстовому редактированию реальных изображений и видео. Авторы предлагают создавать текстовые слои редактирования для решения таких задач, как локализация редактирования, сохранение исходного контента и визуальное качество, без использования предварительно обученного генератора. Они показывают, как адаптировать свою структуру изображений для последовательного редактирования видео с текстовым управлением. Ключевые принципы, продемонстрированные в документе, могут быть применены к крупномасштабным мультимодальным сетям с внутренним обучением.

Если вам понравилась эта статья, рассмотрите возможность подписаться на меня здесь, на Medium, так как я регулярно делюсь здесь последними работами исследователей. Кроме того, вы можете связаться со мной в LinkedIn, если у вас есть какие-либо вопросы или предложения, я буду рад связаться с вами.