NVIDIA Neural Talking-Head Synthesis делает видеоконференцсвязь в 10 раз более эффективной

Будь то деловая встреча, онлайн-обучение или общение с двоюродными братьями и сестрами, использование приложений для видеоконференций резко возросло в условиях COVID-19 в этом году. Новый отчет от Grand View Research прогнозирует, что к 2025 году мировой рынок видеоконференцсвязи превысит 6,7 млрд долларов США.

Чтобы удовлетворить спрос на высококачественную видеоконференцсвязь, в октябре технический гигант Nvidia выпустил полностью ускоренный комплект разработки программного обеспечения Maxine для услуг видеоконференцсвязи. Maxine разработан, чтобы помочь разработчикам создавать и развертывать функции на основе ИИ в своих приложениях, не создавая при этом огромных требований к ресурсам. Nvidia хвастается тем, что «приложения для видеоконференций на основе Maxine могут сократить использование полосы пропускания видео до одной десятой по сравнению с H.264, используя сжатие видео AI, что значительно снижает затраты». (H.264 — это текущий отраслевой стандарт видеоформата для кодирования и декодирования видеосигналов, поскольку он позволяет передавать видеосигналы высокого качества без чрезмерных требований к полосе пропускания.)

Большинство людей, которые совершают видеозвонки, время от времени сталкивались с разрывами, дрожанием, зависанием и т. д. Эти неприятные явления обычно возникают из-за высоких требований к пропускной способности приложения для видеоконференций. Пользователи, конечно же, хотели бы иметь стабильно плавные видеозвонки независимо от состояния их интернет-соединения или от того, используют ли они мощный настольный компьютер, недорогой телефон или планшет. Но как?

В новой статье One-Shot Free-View Neural Talking-Head Synthesis для видеоконференций исследователи Nvidia подробно описывают новое решение для технологии сжатия видео на основе искусственного интеллекта, которое заслужило похвалу в сообществе машинного обучения. Этот подход значительно снижает требования к пропускной способности, отправляя только представление ключевых точек [лиц] и реконструируя исходное видео на стороне получателя с помощью генеративно-состязательных сетей (GAN) для синтеза говорящих голов.

Современные системы видеовызовов обычно передают сжатый видеосигнал, состоящий из массивных потоков изображений, упакованных в пиксели, через Интернет-соединения участников (которые часто не выдерживают нагрузки). Подход Nvidia ограничивает передаваемые данные только несколькими ключевыми точками вокруг глаз, носа и рта вызывающего абонента.

Предлагаемая система сначала извлекает черты внешнего вида и канонические ключевые точки 3D из исходного изображения. Они используются для вычисления ключевых точек источника и генерации ключевых точек для видео синтеза. Система разлагает представления ключевых точек на характерные для человека канонические ключевые точки и преобразования, связанные с движением, используя трехмерные ключевые точки для моделирования как выражений лица, так и геометрической подписи, чтобы создать видео синтеза говорящей головы с информацией о выражении лица и позе головы. Метод рендеринга также может синтезировать сопутствующие аксессуары в исходном видео, такие как очки, шляпы и шарфы.

Конечно, никто не стоит на месте во время видеозвонка — могут ли пользователи естественно кивать, поворачивать или иным образом двигать головой, не получая результатов синтеза? да. Исследователи включили предварительно обученную сеть распознавания лиц и предварительно обученный оценщик положения головы, чтобы гарантировать, что позы головы, углы и т. д. в сгенерированных изображениях являются точными и визуально приемлемыми.

Команда изучила предложенный метод на задачах синтеза говорящих голов, таких как реконструкция видео, передача движения и перенаправление лица, где он превзошел такие методы, как FOMM, несколько снимков vid2vid (fs-vid2vid) и двукратный просмотр. слой нейронных аватаров (двухслойный)» на эталонных наборах данных.

Реакция сообщества ИИ также была очень положительной. Ян Гудфеллоу — известный ученый-исследователь, один из пионеров генеративно-состязательных сетей (GAN) — похвалил команду за их успех: «Это действительно круто. Некоторые из моих аспирантов по лаборатории работали над ML для сжатия еще в предтренировочную эпоху, и я помню, как было очень сложно получить преимущество сжатия».

Статья One-Shot Free-View Neural Talking-Head Synthesis для видеоконференций находится на arXiv.

Репортер: Фанъюй Цай | Редактор: Майкл Саразен

Синхронизированный отчет | Обзор китайских решений искусственного интеллекта в ответ на пандемию COVID-19 — 87 тематических исследований от более чем 700 поставщиков ИИ

В этом отчете предлагается взглянуть на то, как Китай использует технологии искусственного интеллекта в борьбе с COVID-19. Он также доступен на Amazon Kindle. Вместе с этим отчетом мы также представили базу данных, охватывающую дополнительные 1428 решений искусственного интеллекта для 12 сценариев пандемии.

Нажмите здесь, чтобы найти больше отчетов от нас.

Мы знаем, что вы не хотите пропустить ни одной новости или научного открытия.Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

NVIDIA Neural Talking-Head Synthesis делает видеоконференцсвязь в 10 раз более эффективной

Вопросы по теме