Обнаружение изображений и дипфейков, созданных искусственным интеллектом (часть 1)

Кто хочет стать миллионером? Более 2000 участников заявили об этом на общую сумму в один миллион призовых в Deepfake Detection Challenge (DFDC). Задача марта 2020 года - создать технологии, которые обнаруживают дипфейки и манипулируемые медиа.

Обновления. Давайте кратко рассмотрим конкуренцию с момента написания этой статьи. Из 35 тысяч представленных моделей победителем DFDC стал Селим Сефербеков, чья модель имела точность 65% в обнаружении Deepfakes. Точность была немного ниже, чем я ожидал, поскольку многие поддельные видео в наборе данных не были созданы для высококачественного производства. Но это демонстрирует, насколько сложно создать решение для автоматического обнаружения, а также есть много возможностей для улучшения.

Согласно Газете Facebook:

Селим Сефербеков использовал MTCNN для распознавания лиц и EfficientNet B-7 для кодирования функций. Структурированные части лица были отброшены во время тренировки как форма увеличения. Второе решение, WM, использовало архитектуру Xception для покадрового извлечения функций и модель WSDAN для расширения. Третья заявка, NTechLab, использовала ансамбль EfficientNets в дополнение к использованию увеличения смешивания во время обучения.

Из-за ограничений по времени ядра (времени вычислений), установленных в конкурсе, детектор MTCNN выбран для обнаружения лиц по сравнению с S3FD по скорости. Затем Селим Сефербеков увеличил область на 30% и использовал это в качестве входных данных для EfficientNets для извлечения черт лица. Кроме того, набор обучающих данных сильно расширен, включая вырезание и частичное выпадение (показано ниже). Это улучшает обобщение детектора. Поздравляю!

В декабре 2019 года Facebook удалил 682 аккаунта, которые якобы использовали обманные методы, чтобы донести доводы в пользу Трампа примерно до 55 миллионов пользователей. Как заявлял Facebook, некоторые из этих аккаунтов использовали фотографии профилей, созданные искусственным интеллектом и выдаваемые за американцев. Широко известно, что фотографии создаются с общедоступного веб-сайта с использованием StyleGAN для создания изображений профиля. Приведенные ниже фотографии созданы с помощью улучшенной версии под названием StyleGAN2, которая также является общедоступной.

Сможете ли вы определить, какое изображение ниже поддельное? Какой из них создан StyleGAN?

Это просто. Он левый из-за артефактов, присутствующих на многих фотографиях StyleGAN. Просто для удовольствия, есть еще несколько.

Все изображения слева - подделки. Моя точность определения фотографий StyleGAN выше 95%. Но StyleGAN2 намного сложнее. Все фото ниже поддельные.

GAN и Deepfakes становятся больше, чем исследовательскими объектами или игрушками для инженеров. Начиная с инновационной концепции или приложения, теперь его можно использовать в качестве средства коммуникации. Если вам нужно больше примеров, вот еще одно широко распространенное видео, созданное с помощью Adobe After Effects и FakeApp (приложение Deepfakes).

Недостатки дизайна и реализации

Дизайн и реализация обычно имеют недостатки и ошибки. Например, метод нормализации экземпляра, используемый в StyleGAN, часто вызывает артефакты больших двоичных объектов и размытие цвета в сгенерированных изображениях. Это легко обнаруживает поддельные изображения.

Однако, как и другие технологии GAN и Deepfakes, вводятся меры противодействия. Например, артефакты blob в StyleGAN уже разрешены с помощью весовой демодуляции в StyleGAN2 в качестве альтернативного метода нормализации.

Для StyleGAN2, если разобраться в деталях, все же можно найти некоторые недоработки. Например, структура фона ниже не кажется правильной. Визуализированные структуры не сохраняют правильную форму линий или форм.

Симметрию также трудно поддерживать. Например, на одном ухе может быть серьга, а на другом - нет. На следующем рисунке поза правого плеча не совпадает с левым плечом ниже.

Обзор Deepfakes

В Deepfakes шаг ① ниже создает общий кодировщик для кодирования скрытых факторов изображений для двух разных людей. На шагах ② и ③ он строит два отдельных декодера для восстановления первой и второй фотографии соответственно. Чтобы правильно восстановить изображение, кодировщик должен улавливать все варианты на фотографиях человека, то есть скрытые факторы, которые воспринимают информацию, такую как поза, выражение, освещение и т. Д.

Давайте заменим лица Мэри в видео на Эми. Мы зафиксируем скрытые факторы лица Мэри на видео и визуализируем его с помощью декодера Эми. Таким образом, визуализированное лицо Эми будет иметь ту же позу, освещение и эмоциональное выражение, что и исходное видео.

Однако, если этого не сделать, вероятно, это превратится в операции «вырезать и вставить» с очевидными артефактами на границе, куда вставляется грань.

Чтобы решить эту проблему, кодировщик может изучить маску, чтобы лучше смешать новое лицо с оригиналом.

Тем не менее, слияние нового лица с исходным сложно. Эффекты ореола, изменения тона и очевидные границы обычно выдают низкобюджетную продукцию, включая некоторые видео в наборе данных DFDC.

Ориентиры на лицах

Для улучшения качества можно применить другой метод. Концепция смены лица с использованием ориентиров была реализована до нынешней эры искусственного интеллекта. Часть лица обрезается и образует собственные ориентиры с целевыми ориентирами.

Затем применяется размытие по Гауссу, чтобы сгладить края. Но оттенки кожи и легкость, вероятно, не будут совпадать. Как обсуждалось ранее, эту проблему можно решить с помощью Deepfakes.

Некоторые реализации Deepfakes обнаруживают лицевые ориентиры и деформируют замененное лицо, чтобы оно соответствовало исходным ориентирам. Это создаст лучшую позу и лучше соответствует форме и размеру исходного лица. Чтобы уменьшить неудобные границы, применяется размытие по Гауссу, в частности, на краевой области.

Затем давайте сначала рассмотрим малобюджетную продукцию Deepfakes. Многие высокобюджетные версии все еще имеют некоторые из этих недостатков, но их гораздо меньше и они менее заметны.

Недостатки дипфейков

Размытые

Лица на многих видео Deepfakes необычно размыты. Есть две основные причины. Во-первых, новое лицо должно хорошо сочетаться с остальными изображениями. Поэтому применяются фильтры, которые слегка размывают лицо. Во-вторых, многие малобюджетные производства используют изображения лиц с низким разрешением для изучения кодировщика. Поскольку время обучения экспоненциально растет с разрешением лица, это снижает требования к памяти графического процессора, а также время обучения. Раньше многие малобюджетные постановки использовали разрешение лица 64 × 64 и создавали размытые лица.

Теперь многие высокобюджетные производства будут тщательно выбирать входное разрешение (обычно с более высоким разрешением). В сочетании с днями тренировок с использованием видеокарт высокого класса качество видео может быть значительно улучшено, и его трудно обнаружить.

Мы также можем сравнить резкость, освещение и цветовой тон с другими лицами на видео. Если другой человек настоящий, вы легко заметите разницу.

Однако в видео Джордана Пила об Обаме есть только один человек. Маски применяются, чтобы ограничить изменения только областью рта и челюсти Обамы. Остальные части лица не трогаем. Но если вы внимательно посмотрите видео, вы все равно обнаружите, что область рта более размыта по сравнению с глазами.

Опять же, это только для малобюджетных постановок. Многие высокобюджетные видеоролики Deepfakes изучаются с помощью лиц с более высоким разрешением с окончательным видео в 1440p. Таким образом, даже лица слегка размыты, но качество изображения выше, чем у того, что мы обычно смотрим в формате HD (740p). Эта высокая точность снижает нашу бдительность, рассматривая их как подделки. Но на снимке ниже есть области, в которых размытие по Гауссу применяется неравномерно, что указывает на то, что изображение было изменено.

Однако есть видео, на которых исходные лица сильно накрашены или передержаны. При правильном обучении выявить упомянутые выше недостатки будет непросто.

Снимок слева внизу - это «высокобюджетное» видео Deepfakes в высоком разрешении (1440p). Он имеет детализацию лучше, чем HD-версия (740p), и трудно заметить какую-либо размытость, упомянутую ранее. Это просто еще один пример того, как Deepfakes может преодолеть некоторые из своих прежних правил, например, плохую верность.

Тон кожи

На некоторых замененных лицах оттенок кожи выглядит неестественным.

Или это просто неудачный сеанс загара знаменитостей? 😂

Один из способов решить эту проблему - выбрать кандидатов с похожим оттенком кожи, прической и формой лица, чтобы поменять местами.

Здесь лицо Пола Радда заменено лицом Джимми Фэллона.

Кроме того, отбираются кандидаты, умеющие изображать голоса, жесты и выражения людей.

Двойная бровь

Когда мы объединяем замененное лицо с исходным лицом, если маска или слияние, вероятно, не выполнено, мы можем увидеть два набора бровей - один набор от нового лица, а другой от исходного лица.

Двойной подбородок

Двойной подбородок тоже может случиться, но сложнее сказать, естественно это или нет, если вы плохо знаете человека.

Пространственная несогласованность

Пытаясь определить аномалии в области лица, мы можем сравнить лицо с другими частями тела. Очевидно, нельзя придать лицу 60-летнего актера лицо 20-летней актрисы, в частности, Дженнифер Лоуренс. Текстура кожи и гладкость руки не будут соответствовать лицу.

В общем, ищите различия, включая оттенки, резкость и текстуру, между олицетворенными лицами и остальной частью видео и текущим видеокадром.

Пока мы исследуем пространственную несогласованность, мы также можем исследовать временную несогласованность.

Перелистывание

Одним из основных недостатков Deepfakes является то, что видеокадры создаются покадрово независимо. Такая независимость может создавать видеокадры с заметно отличающимися тонами, освещением и тенями по сравнению с последним кадром. При воспроизведении происходит щелчок.

Иногда качество замененных кадров настолько низкое, что плохие кадры удаляются вручную или автоматически. Если пропускается не слишком много кадров, вы можете не заметить этого, не уделяя слишком много внимания.

Сделаем пару снимков ниже. Даже они очень близки по времени, резкость и тона заметно различаются.

На диаграмме ниже показаны еще два кадра с совершенно другим распределением RGB.

Мерцающий

Если вы воспроизводите видео ниже со скоростью 0,25, при движении головы происходит мерцание кожи и неестественные изменения тона.

В Deepfakes быстрые движения часто затрудняют создание кадров с должной временной плавностью. Изменения скрытых факторов в соседних кадрах могут быть неправильно преувеличены декодером. Это нелегко решить, если мы не добавим дополнительный член в функцию стоимости, чтобы компенсировать такое временное колебание во время обучения. (И это может потребовать некоторых специальных изменений в дизайне и реализации).

Граница

В Deepfakes есть области, на которые следует обратить особое внимание при обнаружении фейковых видео. Один из них - это граница лица, где оно сливается с оригиналом.

Но для более серьезных постановок артефакты будут менее заметными или ненаблюдаемыми. Лучшие алгоритмы или ручные манипуляции могут быть выполнены при маскировке новых лиц поверх фона.

Вот еще одна «высокобюджетная» постановка. Это совершенно безупречно, если не обращать внимания на края лица Джиллиан Андерсон.

Постпроизводственное редактирование видео

В общем, добавление обучающих данных для соответствия углу лица или применение автоматического увеличения цвета во время обучения устранит больше артефактов, упомянутых в этой статье. Тем не менее, ручное постпродакшн-монтаж видео с маской часто выполняется для решения оставшихся проблем.

Зубы

Один из ключевых недостатков большинства видеороликов Deepfakes - это область зубов. Декодеру сложно восстановить небольшую область с четко определенной структурой. Часто зубы в Deepfakes размыты.

В других случаях зубы представляют собой смещенные зубы или отдельный зуб растягивается или сжимается.

В одном видео я обнаружил, что рендер слишком много зубов. Иногда при рендеринге зубов возникает много побочных эффектов. И зубы выглядят по-разному на всех кадрах видео. Даже для некоторых «высокобюджетных» видеороликов Deepfakes, которые имеют высокую точность воспроизведения, зубы все равно могут отображаться некорректно. Как показано ниже, несколько зубцов соединены вместе.

Поза

Когда я сравнивал воспроизведение Deepfakes на Silence of the Lamb с оригинальным, я обнаружил, что несколько секунд оригинального клипа отсутствуют.

Я предполагаю, что он содержит позу с камерой, смотрящей из челюсти Энтони Хопкинса. Весьма вероятно, что у продюсеров недостаточно видеокадров Виллема Дефо, чтобы изучить модель Deepfakes, чтобы правильно воспроизвести эту сцену. Так что он вырезается вручную. Во многих видеороликах Deepfakes вид сбоку на имитатора обычно является одним из самых слабых звеньев поддельных видеороликов.

В то время как видео Break Bad Deepfakes отлично изображает Донала Трампа. Его вид сбоку не так хорош.

Тем не менее, эту проблему можно решить, добавив соответствующие видеокадры в обучение модели. Об этом мы поговорим позже.

Скрытый объект

Скрытый объект, движущийся по лицу, иногда может сбивать с толку модель Deepfakes. Основная причина в том, что в модели недостаточно данных для правильного изучения таких ситуаций. Как в одной «высокобюджетной» постановке, кто-то откусывает крышку, закрывая лицо слева. Поэтому я часто ищу затемненные лица и смотрю, что не так.

Блики и отражение

Некоторые блики или отражения в Deepflakes выглядят преувеличенными, отсутствуют или не имеют должной сложности. Опять же, это проблема Deepfakes для рендеринга небольших структур. Тем не менее, это обычно увеличивает мою уверенность в реальных видео, а не в поддельных видео.

Очки

Во многих «малобюджетных» постановках дужка очков отсутствует.

Ленивый глаз

Мы строим модель Deepfakes с неподвижными кадрами в 2-D. Во время операций, включая деформацию, может быть потеряна важная трехмерная информация. Например, на видео мы можем увидеть ленивые глаза,

чего нет в исходном видео.

Подобная проблема может возникнуть и в GAN, как описано в статье StyleGAN2:

В этом примере зубы не повторяют позу, а остаются выровненными по отношению к камере, как показано синей линией.

Политики и знаменитости

Форма и аспект лица

Политики и знаменитости - один из основных источников выдачи себя за другое лицо. Дипфейки часто применяются к порнографическим видео знаменитостей.

Сейчас в большинстве случаев мы не меняем очертания лица. Таким образом, мы можем создать базу данных этих общественных деятелей, чтобы обнаружить любую подделку. Однако более новые технологии могут применять GAN для замены контуров лица. Но это все еще на ранней стадии. Вкратце, как многие ошибаются, большинство приложений Deepfakes не применяют GAN.

Например, длинный лоб Сталлоне в «Терминаторе Дипфейкс» не подходит Сталлоне.

Высокобюджетные постановки

Термин «высокобюджетное» производство в этой статье не обязательно означает проекты, на которые тратятся тонны денег. В этой статье мы фактически говорим о проектах, в которых есть нужные специалисты, приличная компьютерная видеокарта и разумное количество (дней) времени для обучения модели. Сбор, выбор и очистка набора обучающих данных критически важны для качества проекта. Получить профессиональные знания тоже несложно. Есть множество онлайн-руководств и бесплатных инструментов. Возможно, вам понадобятся некоторые пробы и ошибки, но знания ИИ не требуются. (Даже знания искусственного интеллекта могут помочь, многие руководства дадут вам достаточно советов.) И для создания высококачественного видео часто применяются ручные манипуляции после обработки. Многие люди с опытом редактирования видео могут быстро изучить весь процесс.

В этой статье мы говорим, что Deepfakes легко обнаружить визуально. Это не относится к последним видеороликам, поскольку широкая публика получает больше знаний по их производству. Не существует универсального руководства по устранению неполадок при обнаружении видео Deepfakes. В разных видео много разных ошибок. Хуже всего то, что делается меньше ошибок, и их труднее найти. В следующих статьях мы рассмотрим некоторые программные способы их обнаружения. Благодаря знаниям, изложенным в этой статье, вы можете просмотреть несколько видеороликов, чтобы проанализировать и применить полученные знания.

Одна из очевидных ошибок - это глаз, если присмотреться. Ученик - это не круг!

Как упоминалось ранее, граница также показывает видео Deepfake.

Во все тяжкие

Давайте посмотрим еще одно видео.

Однако морщинка вокруг глаз не соответствует гладкости подбородка. Во многих видеороликах Deepfakes знаменитостей такое случается очень часто. Но опять же, это может быть просто неудачный сеанс ботокса.

Тень сбоку от лица кажется неестественной. К сожалению, это не слишком очевидно и становится решающим фактором, чтобы сказать, что это подделка.

Кроме того, испуг на лице будет трудно воспроизвести, так как трудно будет собрать данные о Джареде Кушнере с помощью пуганий. Вместо этого на воспроизведенном кадре видны размытые отметины только на лице.

Вот еще одно забавное видео Deepfakes

и оригинал, чтобы вы могли обнаружить любые проблемы.

Дипфейки в политике

Учитывая внимание СМИ к Deepfakes, злоупотребление Deepfakes в политике все еще относительно невелико в 2020 году. Скорее всего, оно будет использовано в качестве неожиданности в последнюю минуту, а не как механизм ежедневной атаки. Многие существующие политические видео Deepfakes содержат раскрытие того, что они созданы с помощью Deepfakes (например, приведенные ниже). Но это может измениться, когда такие программы, как Reface, FaceSwap и DeepFaceLab, станут более популярными среди широкой публики.

Видео ниже поощряют защиту и право голоса на выборах 2020 года. Он идет с раскрытием, что видео фальшивые в конце. Они сняты двумя актерами с такими же формами лиц, как Путин и Ким соответственно, и имитируют похожие акценты, чтобы декламировать сценарий. Затем лица меняются местами с лицами Путина и Кима с использованием пакета Deepfakes с открытым исходным кодом. Затем он улучшается путем постпроизводственного редактирования видео. Из-за более высоких требований к качеству весь процесс занял 10 дней, что дольше среднего.

Но остаются некоторые недостатки, которые упускают из виду многие качественные видео.

Если вы внимательно посмотрите на зубы, вы обнаружите, что рендеринг иногда бывает неправильным.
Некоторая часть лица более скрыта по сравнению с другими частями.
Движение в подбородке и краевой области выделялось по сравнению с его фоном.

Тем не менее, самая большая распродажа - это движение головы. Многие политики говорят с гораздо большим и частым движением головы, как мы продемонстрируем в следующих статьях.

Малобюджетные постановки

Мы склонны верить в то, во что хотим верить. Поддельное видео о Нэнси Пелоси распространялось в Интернете с невнятной или пьяной речью. Это некачественное воспроизведение создано не Deepfakes. Вместо этого изображение замедляется на 25%, а высота звука изменяется так, чтобы она выглядела невнятной. Урок, усвоенный здесь, заключается в том, что некачественные поддельные видео также могут широко распространяться. Контент продвигается на социальную платформу с помощью алгоритма взаимодействия. Ни один из них не проходит через какие-либо журналистские стандарты. Так что внимательно проверяйте источник. Информация из социальных сетей обычно является плохим источником информации.

Проблема поддельных видео также создает проблемы для реальных новостей. Вероятно, мы будем часто слышать, как политики придумывают свои скандалы как фейки. Это было до Deepfakes, но теперь может быть более запутанным.

Более

Deepfakes - это лишь один из многих способов создания поддельных видео. Во второй части сначала рассматриваются более академические подходы в этой области.

Обнаружение изображений и Deepfakes, созданных AI (часть 2)
Deepfakes приобрел огромную популярность, потому что доступно множество простых в использовании пакетов бесплатного программного обеспечения, которые не требуют… medium.com

В третьей части серии подробно рассматриваются два популярных пакета для создания Deepfake: Faceswap и DeepFaceLab.

Обнаружение изображений и Deepfakes, созданных AI (часть 3)
Два популярных инструмента для создания видео Deepfakes - Faceswap и DeepFaceLab. Эта статья не является учебным пособием для обоих… medium.com

Наконец, мы рассмотрим способы обнаружения Deepfake и сфабрикованных изображений / видео с помощью машинного обучения и глубокого обучения.

Обнаружение изображений и глубоких подделок, созданных искусственным интеллектом (часть 4)
Наконец, наша последняя часть серии посвящена обнаружению видеороликов Deepfakes с помощью машинного обучения (ML) и / или глубокого ... medium.com

Источники и ссылки

10 лучших видео Deepfake

Оценка уязвимости и обнаружение видео Deepfake

Обнаружение несоответствия подделки динамика с фонетически осведомленными аудиовизуальными функциями

Ctrl Shift Face

В Ictu Oculi: отображение созданных искусственным интеллектом видео поддельных лиц путем обнаружения моргания глаз

Стартовый комплект Deepfake

Введение в Kaggle Deepfake Detection

Внесение данных в исследования по обнаружению дипфейков

Recycle-GAN: неконтролируемый ретаргетинг видео

Фотографии Кредиты

"Головной платок"

Что касается второго изображения головы женщины, я изначально получил его из бесплатного источника, но, к сожалению, больше не могу отследить его источник.