На пути к созданию видео с говорящим лицом сверхвысокого разрешения с синхронизацией губ

Святым Граалем дипфейковых моделей является индивидуальная модель человека, которая, имея только одно изображение или очень короткое видео лица человека, может создать измененное видео этого человека. Как вы, возможно, знаете из предыдущего поста, универсальные модели человека, особенно те, которые основаны на популярной модели wav2lip, обычно страдают двумя существенными недостатками: неспособностью уловить особенности человека и в целом низким качеством изображения. В этой статье мы рассмотрим одну из моделей, предназначенных для решения последней из этих проблем. Бумага [1] под названием:

«На пути к созданию видео с говорящим лицом в сверхвысоком разрешении с синхронизацией губ»

использует подход в стиле Wav2Lip [2], используя экспертный дискриминатор, который может определить, синхронизированы губы или нет. В то время как Wav2Lip работает с изображениями размером 96 на 96 пикселей, в этой статье предлагается расширить метод до 768 на 768 пикселей, что означает огромное 64-кратноеувеличение количества пикселей! Возникает естественный вопрос: насколько легко просто увеличить размер обучающих данных и сделать модели из Wav2Lip более глубокими? Ответ на это заключается в том, что это не работает. Просто посмотрите на дополнительные репозитории GitHub, которые пытались сделать именно это. Очевидно, что для достижения этого необходим какой-то новый метод. Введите векторное квантование.

Векторное квантование и VQ-GAN

Для набора данных векторное квантование включает в себя изучение скрытого представления данных с использованием автоэнкодера, но с уникальными функциями. Скрытое пространство состоит из дискретных векторов, а не из непрерывных. Это может показаться не такой уж большой разницей, но это так. Использование дискретных токенов обеспечивает огромный уровень сжатия, а также позволяет моделям на основе токенов, таким как преобразователь, работать со скрытым пространством.

Квантование векторов достигается за счет совместного обучения сетей кодировщика и декодера, а также кодовой книги, состоящей из обучаемых и непрерывных скрытых векторов. Это может показаться нелогичным, поскольку мы хотим изучить дискретное скрытое пространство. Однако кодовая книга на самом деле позволяет нам это сделать. Мы можем представить скрытое пространство с помощью индекса скрытого вектора в кодовой книге. Например, кодовая книга может быть: {0=(0, 0,2), 1=(0,5, 0,6), 2=(0,8, 0,4)}, то скрытый вектор (0,8, 0,4) может быть записан с использованием индекса 2. На практике для представления каждого изображения используется множество скрытых векторов, как показано на диаграмме ниже.

Существует несколько подтипов моделей векторного квантования. В данной статье используется VQGAN [3], основанный на генеративно-состязательной сети. Здесь, в дополнение к потерям при реконструкции, для улучшения качества реконструкции также применяются потери со стороны противника. Обучаются две сети VQGAN, одна для изображений лица в полный рост, а другая для тех же изображений, но с замаскированной нижней половиной лица.

Переосмысление проблемы

Учитывая эти VQGAN, теперь можно переформулировать проблему. Вместо того, чтобы пытаться закрасить нижнюю половину изображения лица, содержащего более четверти миллиона пикселей, проблема теперь состоит в том, чтобы преобразовать квантованное изображение лица в маске в квантованное изображение лица в полный рост. Это гораздо более легкая проблема.

Основной раздел статьи теперь в значительной степени соответствует подходу в стиле Wav2Lip. Если вы не знакомы с ним, я бы посоветовал прочитать мой предыдущий пост об этом. Но, по сути, чтобы сгенерировать кадр с измененными губами, нужно сделать следующее:

Замаскируйте нижнюю половину лица.
Возьмите звуковое окно, соответствующее новым губам, используя спектрограммы MEL, центрированные вокруг целевого кадра.
Возьмите случайный опорный кадр из того же видео.
Кодируйте каждый по отдельности, объединяйте их конкатенацией и затем декодируйте.

В этой статье это во многом то же самое, за исключением того, что теперь маскированная система координат и система отсчета сначала преобразуются в квантованное пространство.

Аналогичным образом экспертный дискриминатор синхронизации губ, SyncNet, также обучается в квантованном пространстве. Теперь SyncNet получает как аудиосегмент, так и последовательность квантованных кадров, и ее просят предсказать, синхронизированы они или нет. Затем эту сеть можно использовать в качестве потери для генерации синхронизации губ. Стоит отметить, что, поскольку эта модель обучается в квантованном пространстве более низкой размерности, ее можно обучать на более длинных последовательностях. Для этой работы используется полная секунда, что помогает дополнительно улучшить синхронизацию.

Дальнейшее улучшение качества

Несмотря на улучшенное визуальное качество, полученное с помощью VQGAN, в окончательном выводе по-прежнему наблюдается некоторый заметный недостаток качества, особенно в области губ. Чтобы решить эту проблему, авторы предлагают дополнительный этап постобработки. Они тренируют GAN восстановления лица [4], который может улучшить резкость губ и использовать это в качестве этапа постобработки.

Вердикт

Эта статья делает впечатляющие успехи в улучшении визуального качества личностно-общих моделей. Однако, насколько я могу судить, результаты нигде не публикуются в открытом доступе, что затрудняет оценку того, насколько хороша модель. Более того, результаты, которые можно увидеть в статье, по-видимому, предполагают, что эта модель все еще борется с другой проблемой личностно-общих моделей: улавливанием личностных особенностей. Я подозреваю, что это в значительной степени связано с тем, что VQGAN перезаписывает индивидуальные особенности, где он не может их зафиксировать. В качестве примера посмотрите на губы на следующем рисунке:

У мужчины в нижнем ряду губы гораздо более розовые, чем можно было бы ожидать, что говорит о том, что модель неправильно усвоила идиосинкразию. Было бы интересно посмотреть, что произойдет, если каждому человеку будет дано более одной системы отсчета.

Несмотря на эти недостатки, количественные и количественные оценки показывают, что модель очень качественная, и я с нетерпением жду видео в будущем!

На пути к созданию видео с говорящим лицом сверхвысокого разрешения с синхронизацией губ

Векторное квантование и VQ-GAN

Переосмысление проблемы

Дальнейшее улучшение качества

Вердикт

Рекомендации

Вопросы по теме