Мы только что создали самый глубокий дипфейк. Вот почему.

Повышение осведомленности об опасностях синтетических медиа

TL; DR: Мы повышаем осведомленность общественности о силе и опасности дипфейков, создавая гиперреалистичные дипфейки, которые на 100% создаются с помощью ИИ. Работа теперь является предметом телевизионного эпизода The Weekly, телешоу The New York Times, в котором подробно рассматривается наш процесс его создания и последствия дипфейков для общества. Чтобы снизить риск, связанный с распространением этого примера дипфейка, мы не будем публиковать модель, код или данные, использованные для его создания.

В ходе нашей работы над этим проектом мы также внесли значительный вклад в область обнаружения дипфейков, упростив обнаружение появления реальных дипфейк-видео. Сегодня эта работа также освещалась в The New York Times репортером AI Кейдом Метцем, статью можно найти здесь.

Вступление

Утром во вторник в небольшом конференц-зале я показал людям в зале созданное нами короткое видео. После того, как он закончился, я взглянул и увидел первого и единственного журналиста, выигравшего четыре Пулитцеровские премии, обхватив голову руками, и созерцал конец истины и реальности, какой мы ее знаем. Как мы попали в это место?

В начале этого лета наша компания Dessa стала известна во всем мире как самый реалистичный на сегодняшний день голос искусственного интеллекта, который воспроизводил один из самых известных голосов в подкастинге, Джо Роган. Голос ИИ, созданный с использованием разработанной нами системы синтеза текста в речь под названием RealTalk, мог произносить любые слова, которые мы хотели сказать, даже если Роган никогда их раньше не произносил.

Мы сделали это не ради удовольствия. Одна из наших основных целей при выпуске RealTalk состояла в том, чтобы привлечь внимание общественности к тому, насколько реалистичными становятся дипфейки, и понять огромные последствия для общества в результате.

Это сработало.

С тех пор, как в мае мы выпустили RealTalk, мы были шокированы огромной волной общественного восприятия его. Наш видеоролик с отрывками фальшивого голоса Рогана на YouTube посмотрели более 2 миллионов человек. Информация о работе также быстро распространилась по миру, ее освещали журналисты из более чем 20 разных стран (вы можете найти подборку новостей здесь).

Одним из журналистов, которые заинтересовались этой работой, был Дэвид Барстоу, журналист, о котором мы упоминали ранее, который написал нам по электронной почте вскоре после того, как мы публично поделились RealTalk. Сначала мне пришлось дважды подумать, чтобы понять, было ли это электронное письмо розыгрышем. Вот кто-то, кто взял на себя некоторые из самых громких историй в мире (совсем недавно, разоблачая схемы уклонения от уплаты налогов), связался с нами, желая поработать с нами над историей о дипфейках.

Совершенно не нервничая и не страдая сердечным приступом, я согласился позвонить ему в тот же день. Дэвид сказал, что впервые заинтересовался дипфейками после того, как увидел, что его сын показал ему видео ставшего легендарным дипфейком, который Джордан Пил создал об Обаме, и думал об их последствиях, особенно по мере приближения американских выборов 2020 года.

Во время разговора Дэвид спросил меня, думали ли мы о сочетании синтетического звука с синтетическим видео, чтобы создать полноценный дипфейк (такой, который было бы почти невозможно распознать как подделку), и сравнил такой подвиг с моментом Эдисона. Он задавался вопросом, если бы команда попыталась реализовать такой проект, были бы мы также заинтересованы в том, чтобы нас снимали во время процесса и, в конечном итоге, стать предметом документального фильма на The Weekly?

После того первого телефонного звонка нам пришлось ущипнуть себя. Но мы были уверены, что если кто-то и мог понять, почему миру важно знать о дипфейках, так это Дэвид Барстоу. И правда была в том, что он как будто прочитал наши мысли. Вскоре после выпуска RealTalk и до того, как мы получили этот звонок, мы уже начали думать об объединении аудио и видео в качестве следующего этапа проекта, будучи уверенными, что это поможет нам в нашей миссии по распространению еще большей осведомленности о силе и опасности дипфейки.

После этого разговора с Дэвидом мы быстро решили, что открыть двери для The New York Times тем же способом, которым мы это сделали, было несложно. Представление работы в документальном фильме The Times будет означать, что миллионы людей узнают о дипфейках и их последствиях. И за нами будет авторитет The New York Times. Это действительно казалось идеальной мыльницей для нашего сообщения.

В то же время на протяжении всего пути мы четко осознавали риск, который это одновременно создавало для нашей репутации. Что, если бы они взяли нашу работу, но предпочли бы не разделять наши намерения? Существовал огромный риск, что нас сочтут злыми гениями или, что еще хуже, идеалистами-технологами. Но в конце концов мы решили, что это стоит рискнуть.

Спустя шесть месяцев мы рады поделиться этой работой со всем миром.

Может показаться, что это не так, но график, который мы выделили для создания этой работы, был очень коротким (тем более, что в течение этого периода мы одновременно манипулировали множеством других проектов). Однако для максимального контроля над сообщением мы знали, что должны действовать быстро, поскольку были уверены, что многие другие специалисты, обладающие опытом машинного обучения, будут работать над аналогичными проектами одновременно с нами.

К сожалению, реальность такова, что когда-нибудь в ближайшем будущем Deepfake аудио и видео станут оружием. Прежде чем это произойдет, крайне важно, чтобы специалисты по машинному обучению, такие как мы, которые могут распространять информацию, сделали это проактивно, помогая как можно большему количеству людей узнать о дипфейках и потенциальных способах злоупотребления ими для искажения правды или нанесения вреда честности других. . В конце концов, именно поэтому мы решили, что должны прийти к финишу первыми.

На этом этапе также стоит отметить, что мы не будем публиковать модель, код или данные, использованные для создания дипфейка. Вы можете подумать, что это звучит чрезмерно, несправедливо по отношению к исследователям машинного обучения или это просто перефразирование решения открытого ИИ о поэтапном выпуске модели языковой обработки GPT-2 (ИИ, который был слишком опасен для выпуска). объявлено ранее в этом году.

Это не так, потому что на самом деле инструменты для создания синтетического аудио и видео (и особенно для их совместного создания) намного опаснее. Если бы мы открыли исходный код инструментов, которые использовали для создания RealTalk, их можно было бы использовать для обмана людей как отдельных лиц или массового нарушения демократии, и это было бы несложно. Напротив, для того, чтобы человек использовал такую модель, как GPT-2, для распространения дезинформации, ему нужно было бы каким-то образом создать тонны поддельных новостных сайтов, а также привлечь на них трафик.

Тем не менее, мы можем поделиться избранной информацией о техническом процессе создания работы, которой мы можем поделиться. Вот краткий обзор строительных блоков, которые мы использовали для создания нашего гиперреалистичного дипфейк-видео, в котором Джо Роган объявляет об окончании своего подкаста.

Технический обзор

Аудио. Чтобы синтезировать звук, использованный в нашей финальной версии видео, мы использовали ту же модель RealTalk, которую разработали для воссоздания голоса Джо Рогана с помощью ИИ еще в мае. RealTalk использует основанную на внимании архитектуру последовательность-последовательность для модели текст-спектрограмма, а также использует модифицированную версию WaveNet, которая функционирует как нейронный вокодер.

Последний набор данных, который наши инженеры по машинному обучению использовали для репликации голоса Рогана, состоит из восьми часов чистого звука и расшифровки данных, оптимизированных для задачи синтеза текста в речь. Восьмичасовой набор данных содержит около 4000 клипов, в каждом из которых Джо Роган произносит одно предложение. Ролики имеют продолжительность от 7 до 14 секунд соответственно. Вы можете найти более подробный пост в блоге о технических основах RealTalk, который мы выпустили этим летом, здесь.

Видео

Для видео-части работы мы использовали технику дипфейка FaceSwap, с которой уже знакомы многие в сообществе машинного обучения. Основная причина, по которой мы выбрали FaceSwap вместо других методов, заключается в том, что он выглядел реалистично и был довольно надежным, не требуя многочасовых тренировочных данных для правильного использования. Это было важным фактором для нас из-за наших ускоренных сроков. Чтобы использовать технику FaceSwap, нам понадобится только одно высококачественное и аутентичное видео Джо Рогана для использования в качестве исходных данных и актер, похожий на него для видео, которое мы будем использовать для замены лица Джо Рогана. В конечном итоге мы выбрали Пола, показанного ниже, потому что его телосложение очень напоминало Джо Рогана.

Объединение аудио и видео. Объединение синтетического аудио и синтетического видео вместе - самая сложная часть процесса, потому что в процессе есть несколько отдельных этапов, которые затрудняют его совершенствование. Во-первых, фальшивый звук создается отдельно от видео. Фальшивый звук воспроизводит тон, дыхание и темп, с которым говорит цель (в данном случае Джо Роган). Чтобы видео выглядело убедительно, актер, изображающий из себя Рогана, должен был соответствовать тем же выражениям и скорости, что и синтезированный звук.

Это поставило нас перед огромной проблемой, поскольку актер должен был сосредоточиться не только на точном копировании исходного звука, чтобы обеспечить синхронизацию губ, но и на копировании выражений звука, а также на естественном движении и поведении. В первый раз, когда любому из актеров удалось подобрать синхронизацию губ, они в основном просто смотрели в одну точку, не мигая, копируя движения губ. Если бы мы не копировали робота из научно-фантастического фильма 80-х, это, вероятно, не было бы очень убедительным.

Короче говоря, создание дипфейка, достаточно убедительного, чтобы обмануть всех, к счастью, пока еще очень сложно. Но так будет не вечно.

Заключение

Почему повышение осведомленности имеет решающее значение

Возможно, Dessa сначала добилась дипфейка, объединяющего аудио и видео на этом уровне высокой точности, но мы не будем единственными, кто это сделает. Многие другие работают над той же технологией, и ее будущие версии будут намного быстрее и проще в использовании, чем наши. Как упоминалось выше, реальность такова, что дипфейки могут (и уже используются) используются в злонамеренных целях.

Нам нужно сделать так, чтобы как можно больше людей знали о том, насколько продвинута эта технология, и сделать это нужно быстро. Злоумышленники будут действовать намного быстрее, чем остальные из нас, потому что они не заботятся о том, чтобы все было идеально, и их не тормозит бюрократия. Они просто сделают все возможное, чтобы унизить невиновных людей, украсть деньги или подорвать демократию.

Следующие шаги: участие в области криминалистики дипфейков

Разработка гиперреалистичных дипфейков нашими инженерами по машинному обучению также побудила нас изучить, что мы можем сделать, чтобы облегчить и повысить надежность их обнаружения в реальных условиях. Ранее сегодня мы поделились новым техническим сообщением в блоге наших инженеров, в котором показано, как недавний набор данных, выпущенный Google для обнаружения глубоких подделок, не справляется с надежной идентификацией поддельных видео, найденных в дикой природе на YouTube. Продемонстрировав недостатки набора данных, наши инженеры также предложили решение, позволяющее сделать его более надежным и функциональным для реальных данных. Эта работа также была открыта для всех, кто хочет воспроизвести и расширить наши результаты на GitHub. Работа, которую мы проделали над обнаружением дипфейков, была представлена сегодня в The New York Times Кейдом Метцем, корреспондентом газеты AI Reporter. Найдите статью здесь.

Ранее этой осенью мы также выпустили статью и инструменты с открытым исходным кодом для создания систем для обнаружения Deepfake аудио, которые вы можете найти соответственно на наших Medium и GitHub.

Для тех из вас, кто читает из Америки: полная версия документального фильма The Weekly первоначально была показана на FX в 22:00 по восточному времени 24 ноября. С 25 ноября документальный фильм также будет доступен для подписчиков Hulu.

В конце концов (дата также будет объявлена позже) подписчики The New York Times (включая подписчиков по всему миру) также будут иметь доступ к полной версии выпуска на цифровой платформе газеты здесь.

Чтобы задать нам вопросы о работе, вы можете написать нам по адресу [email protected].

Благодарности

Искренняя благодарность и огромная похвала Райхане Маме и Джозефу Палермо за ваши неустанные усилия в реализации этого проекта. Превратить сторонний проект в нечто потрясающее - безумное достижение, и вы, ребята, заставили меня очень гордиться. Еще одно большое спасибо Хашиаму Кадхиму, который с тех пор ушел из Dessa, но был одним из основных участников первой волны RealTalk.

Выражение должной благодарности всем, кто помог Dessa воплотить эту реальность в жизнь, займет столько же времени, сколько и сам этот пост в блоге, но я хочу выразить особую благодарность Стивену Пирону, Винсенту Вонгу, Мэтью Килли, Алексу Крижевски, Майклу Джиа, Остину Маккиллопу, Алиссе Кунерт и Маккензи Николь за их упорный труд, который помог сделать этот проект успешным.

Спасибо Дэвиду Барстоу за вашу журналистскую честность, вечное любопытство к технологиям дипфейков и за то, что вы нашли время, не проводя расследования в отношении президентов, чтобы поговорить с сумасшедшими инженерами, пытающимися спасти мир.

Еще один большой привет Андреа Шмидт и съемочной группе The Weekly за то, чтобы они убедились, что как можно больше людей услышат важное предупреждение о дипфейках.

Мы также должны поблагодарить Пола Расмуссена за то, что он научился так быстро действовать и за то, что так много повторяет бессмысленные строки наших сценариев.

И, наконец, особое спасибо Джо Рогану за то, что он так хорошо относился к нам, используя его голос и лицо для RealTalk, за распространение информации о дипфейках и за * надеюсь * приглашение команды на свой подкаст!