DeepFakes - Производство и обнаружение с использованием различных методологий глубокого обучения.

Наличие большого объема данных и легкий доступ к технологиям произвело революцию в области машинного обучения и искусственного интеллекта. В этом блоге мы обсуждаем статью, в которой рассказывается о различных применениях такой технологии. Мы говорим о различных генерирующих состязательных сетях и их применении для манипуляции и обмена лицами людей. Мы также говорим о различных возможных способах использования таких методов, а также о обнаружении таких изображений / видео. Мы также будем демонстрировать различные результаты, представленные в статье. В этом посте обсуждаются четыре основные темы:

Синтез всего лица
Обмен идентификационной информации
Манипуляции с атрибутами
Обмен выражений

Полный синтез лица
Подход StyleGans - это очень эффективный способ создания совершенно нового изображения с помощью мощного GAN. Этот метод создает реалистичные изображения людей и может использоваться в различных отраслях, таких как видеоигры, трехмерное моделирование, а также в индустрии моды. С другой стороны, это может привести к введению в заблуждение лиц в социальной сети, которые могут вводить в заблуждение, а также к вовлечению в преступную деятельность, которая может продолжаться незамеченной.

Методы манипуляции и наборы данных
В этом методе автор рассмотрел 4 разные базы данных, и все они здесь основаны на одной и той же архитектуре GAN, ProGAN или StyleGAN. Эти поддельные изображения в наборе данных также можно классифицировать на основе GAN, который их сгенерировал (аналогично устройству, сделавшему фотографию). GANS действительно оставляет рынок / отпечаток пальца, когда мы получаем изображение, и даже различные типы GAN имеют свое собственное уникальное присутствие. Различные анализируемые наборы данных упомянуты ниже:

Набор данных 100K - Generated Images содержит изображения, созданные с использованием архитектуры StyleGAN, которая является улучшенной версией ProGAN. Из документа мы можем сделать вывод, что StyleGAN был самым популярным подходом, используемым для создания поддельных изображений.

Здесь мы также видим еще один новый инструмент / технику под названием GANprintR. Использование GANprintR iFakeFaceDB представляет огромные проблемы для передовых детекторов подделок. GANprintR используется поверх StyleGAN для удаления отпечатка GAN из сгенерированного изображения. Один из примеров, представленных автором в статье, проиллюстрирован ниже:

Методики обнаружения манипуляций

Существует несколько подходов к определению такого содержания, и для получения этих результатов используются различные показатели оценки. Например, некоторые используют AUC (площадь под кривой), а другие - EER (равная частота ошибок).

Анализ внутреннего конвейера GAN для обнаружения реальных и поддельных изображений в одном из предложенных решений. Поскольку цвета изображения с камеры и фальшивого изображения в основном различаются. Основываясь на цвете как функции, Линейные опорные векторные машины (SVM), можно классифицировать такие изображения, и разработчик получил 70% AUC как лучший результат.

Другой подход называется FakeSpoter. Этот подход отслеживает поведение нейронов, обнаруживая поддельные лица слой за слоем. Послойный паттерн активации нейронов улавливает самые мельчайшие особенности, важные для манипуляции лицом, а FakeSpoter обнаруживает такие изменения. Автору этой статьи удалось достичь точности обнаружения подделок 84,7% с помощью модели FaceNet.

В недавнем исследовании была предложена система обнаружения подделок с использованием сверточных трасс и извлечения признаков с помощью максимизации ожидания. k-ближайших соседей (k-NN), SVM (SVM), и LDA (LDA) использовались для окончательного обнаружения с точностью 99,81%.

В различных статьях использовались многие другие подходы, в которых говорится об обнаружении поддельного изображения с помощью методов, упомянутых ниже:

Обнаружение специального отпечатка пальца, вставленного архитектурой GAN.
Обнаружение поддельного изображения с помощью матрицы совпадения пикселей и сверточной нейронной сети (CNN).
Для новых типов GAN и изображений, которые генерируют многозадачные методы инкрементного обучения и обнаружения, также разрабатываются.
Механизм на основе внимания также был опробован для улучшения обучения системы обнаружения.

Ниже приводится сравнение всех этих методов обнаружения и различных оценок точности, которые они получили.

Обмен идентификаторами (Deep Fakes)
Технически обмен идентификаторами заменяет лицо человека на лицо другого человека. У этого есть различные утилиты в киноиндустрии, а также в секторе образования. Попав в чужие руки, он может действительно плохо использоваться для создания обмана, вводящего в заблуждение контента и даже создания поддельного порнографического контента.

Методы манипуляции и наборы данных

Наборы данных, которые принял во внимание автор, следующие: -

Из вышеприведенного набора данных видно, что таким манипуляциям подвергаются как видео, так и изображения. Эти наборы данных содержат как реальные, так и фактические видеоролики и использовались для проведения этого исследования.

Давайте обсудим методики создания таких видео с помощью свопа.

Первый механизм, упомянутый в документе, говорит об алгоритме обмена лицами на основе GAN. Используется GAN на основе CycleGAN, и для этого используются веса FaceNet. Таким образом, используется правильное выравнивание лица вместе с распределением функций, Многозадачная CNN. В этом подходе также рассматривается фильтр Калмана для сглаживания положения ограничивающего прямоугольника, что приводит к устранению дрожания при смене лица в видео.
Другой подход - это метод FaceSwap, который заключается в выравнивании лиц с использованием оптимизации Гаусса-Ньютона и смешивания изображений. Также упоминаемый подход DeepFake использует автокодировщики и общие кодировщики. Эти кодировщики и автоэнкодеры обучаются восстанавливать обучающие образы источника.

Изучая подходы, мы также столкнулись с двумя разными поколениями Identity Swap, которые возникли.

В первом поколении было: -

Некачественные синтезированные лица
Цветовой контраст между синтезированной фальшивой маской
Видимые границы поддельной маски
Между кадрами появились какие-то странные артефакты.

Второе поколение, кажется, является огромным улучшением на вершине этого. Изображение, созданное для контраста изображений 1-го и 2-го поколения, выглядит следующим образом: -

Методики обнаружения манипуляций

Несколько методологий перечислены ниже в табличном формате, но мы рассмотрим несколько наиболее важных из них.

Первое исследование в основном сосредоточено на аудиовизуальных артефактах. Этот подход основан на несоответствии движений губ и звуковой речи. Эти вариации можно легко найти в системе на основе изображений, часто используемой в биометрических решениях. В первом случае в качестве звуковой характеристики использовались Кепстральные коэффициенты частоты Mel (MFCC), а в качестве визуальных характеристик - расстояние между ориентирами рта. Уменьшение размерности было выполнено с помощью PCA. Наконец, для обнаружения поддельных и реальных видео использовалась модель LSTM на основе RNN.

Также были предложены системы обнаружения подделок на основе движений головы и выражения лица. Трехмерные позы головы, оцениваемые по изображению лица, также раскрывают много информации об ошибках, вносимых DeepFakes.

Другие методы, которые использовались для вывода фальшивых изображений, были следующими:

Разница в позе головы классифицируется с использованием SVM для окончательной классификации.
В другом подходе автор говорит о системе обнаружения, основанной как на мимике, так и на движениях головы. Инструментарий OpenFace2 был рассмотрен для получения интенсивности и встречаемости для 18 различных единиц лицевых действий, связанных с движением лицевых мышц. Здесь авторы также учитывали SVM для окончательной оценки. Этот подход дал 96,3% AUC.
Моргание - еще один способ изучения фальшивых видео. Это было предложено авторами, а также предложен алгоритм под названием DeepVision для анализа изменений в паттернах мигания. Их подход был основан на Fast-HyperFace и Eye-Aspect-Ratio для определения лица и получения соотношения сторон глаз. Счетчик миганий дал нам период, который был извлечен, чтобы определить, было ли видео поддельным или настоящим.

Ниже приведены результаты различных методов обнаружения:

Манипулирование атрибутами
Манипулирование атрибутами играет важную роль в индустрии моды и маркетинга. Этот процесс помогает управлять различными физическими чертами лица, чтобы сделать их лучше или хуже. FaceApp - одно из самых известных приложений игрового магазина как конечный потребительский продукт. Эта техника используется для изменения цвета волос и добавления макияжа. Отрасли, занимающиеся косметикой, также используют их, чтобы опробовать своих клиентов.

Методы манипуляции и наборы данных

Первый описанный метод называется Invertible Conditional GAN (IcGAN). Это обеспечивает точные результаты для любых манипуляций с атрибутами. Недостаток - серьезные изменения лица человека. Даже несмотря на то, что предложенная архитектура кодера-декодера обучена восстанавливать изображения путем разделения молчаливой информации изображения и значений атрибутов. На сгенерированных изображениях действительно отсутствуют детали и есть заметные искажения.

StarGAN был предложен как усовершенствованный подход к решению вышеуказанных проблем. StarGAN предложил умный подход к переводу изображения в изображение. StarGAN помог добиться хороших результатов по сравнению со своими предшественниками. Несмотря на то, что он был лучше, он все же произвел некоторые нежелательные изменения цвета и тона кожи.

attGAN - это еще один подход, который устраняет строгие ограничения, не зависящие от атрибутов, из скрытого представления изображения. Он просто применяет ограничение классификации атрибутов к сгенерированному изображению. AttGAN обеспечивает реалистичное управление различными атрибутами.

Недавно появившийся новый подход STGAN превзошел существующие в области управления атрибутами. Он превзошел различные другие существующие модели.

Методики обнаружения манипуляций

Ниже перечислены различные методы, предлагаемые для обнаружения таких изображений:

Анализ внутреннего конвейера GAN для обнаружения различных артефактов между реальными и обработанными изображениями
Системы обнаружения могут быть разработаны с использованием CNN и комбинации пикселей.
Еще одним механизмом является система на основе RBM (ограниченная машина Больцмана) для обнаружения цифровой ретуши изображений лиц с целью изучения отличительных признаков для классификации исходных и отретушированных изображений.
Многие методы глубокого обучения наряду с SVM также были предложены в статье для классификации таких данных.

В заключение раздела мы видим, что методы глубокого обучения обеспечивают почти 100% точность при обнаружении таких манипуляций с изображениями. Мы можем увидеть эти результаты из приведенной ниже таблицы.

Обмен выражениями
Этот метод можно использовать для изменения или добавления выражения лица одного человека к другому. Можно увидеть различные выражения, которыми обмениваются и которые используются для различных целей. Иногда для развлечения, иногда для опасных последствий.

Методы манипуляции и наборы данных

Первоначальный подход к созданию таких эффектов был реализован с использованием ручного выбора ключевых кадров. Первые несколько кадров видео используются для определения временной идентичности лица, а затем отслеживаются выражения лица в оставшемся кадре. Затем на основе этих данных и настройки различных доступных параметров создаются поддельные видео.

В другом методе говорится об использовании NeuralTextures, подхода к визуализации, который использует исходные видеоданные для изучения нейронной текстуры для целевого человека. В этом подходе было изменено только выражение лица, соответствующее рту.

Некоторые из существующих подходов на основе GAN для добавления эмоций и выражения к изображениям: StarGAN, InterFaceGAN, STGAN и AttGAN .

Методики обнаружения манипуляций

Существуют следующие различные методологии обнаружения манипуляции выражениями:

Большинство исследований проводилось на основе визуальных данных, доступных из видео. В основном фейковые видео. Первоначальное исследование было сосредоточено на отсутствующих отражениях, цвете глаз и т. Д. Подходы основаны на мезоскопии и стеганализе.
Вышеупомянутые тесты показали высокие результаты, особенно с необработанным видео.
Подходы к глубокому обучению, основанные на 3DCNN, были изучены, и это помогло в анализе с учетом пространственной информации и информации о движении.
I3D и 3DResNet также смогли с высокой точностью обнаруживать такие видео и изображения.

В приведенной ниже таблице можно увидеть различные результаты, достигнутые с использованием различных методологий:

Ссылки:

[1] DeepFakes и не только: исследование манипуляций с лицами и обнаружения фейков

[2] Все приведенные выше изображения и данные взяты из упомянутой выше статьи.

DeepFakes - Производство и обнаружение с использованием различных методологий глубокого обучения.

Ссылки:

Вопросы по теме