Разбор искусственного интеллекта и его роль в создании фотореалистичной движущейся модели

Картина, созданная в эпоху Возрождения, произвела революцию в взглядах художников на реализм, понимание черепа под кожей. Произведенная Леонардо да Винчи, «Мона Лиза» — это пугающе реалистичная картина, которая даже спустя пять столетий каждый день привлекает тысячи зрителей. И хотя воссоздание улыбки Лизы Герардини останется непревзойденным, что, если бы мы могли вдохнуть в картину еще больше жизни? Можем ли мы заставить Мону Лизу двигаться и говорить?

Оказывается, это не так уж сложно; короткий ответ: искусственный интеллект. Исследователи из Москвы, работающие в Samsung AI, разработали способ использования алгоритмов глубокого обучения, известных как искусственные нейронные сети (ИНС), для создания гиперреалистичных синтетических изображений.

Нейронные сети: возвращение к основам

Нейронную сеть можно понимать как искусственный способ отражения поведения человеческого мозга, поскольку они копируют способ, которым биологические нейроны посылают сигналы друг другу для вычисления информации. ANN разделены на три слоя: входной слой, скрытые слои и выходной слой. Эти слои соединены узлами, искусственными нейронами, которые помогают передавать сигналы.

Узлы имеют предопределенный вес и порог. Как только входной слой определен, веса (Wn) присваиваются различным входным переменным (Xn), которые играют роль в принятии решений. Далее входное значение проходит через математические операции, в которых входной сигнал умножается на его вес (WnXn).

Вес играет жизненно важную роль в этом процессе, поскольку его полярность (отрицательная или положительная) и сила влияют на важность ввода. Общее влияние входного сигнала определяется путем нахождения суммы умноженного значения (WnXn) и смещения (b, дополнительный набор весов, которые остаются постоянными).

Суммирование выглядит следующим образом: ∑ wi xi + b

Суммарное значение затем передается через функцию активации (f) и, наконец, выглядит следующим образом: f(∑ wi xi + b)

Мы можем понимать функцию активации как минимальное значение, которое требуется для суммирования, чтобы активировать узел и инициировать передачу данных с одного уровня на другой. Если узел активирован, это означает, что значение f(∑ wi xi + b) превышает этот минимальный порог, позволяя выходу текущего слоя стать входом последующего слоя.

Затем весь процесс повторяется до последнего слоя.

Сверточные нейронные сети: давайте углубимся

Чтобы оживить Мону Лизу, используется более специфический тип ИНС, известный как сверточная нейронная сеть (ConvNet), который отличается от ИНС тем, что обслуживает распознавание изображений, видео и речи.

ConvNets имеют три уровня:

  • Сверточный слой — входные данные, карта объектов и фильтр
  • Объединенный слой
  • Полносвязный (FC) уровень

Предположим, что входными данными является изображение зебры. Это означает, что картинка будет цветным изображением, состоящим из матрицы пикселей в 3D; это означает, что изображение имеет высоту, ширину и глубину. Первые два уровня ConvNet выполняют извлечение признаков. Это делается с помощью детектора функций, известного как ядро. Ядру присваивается значение двумерного массива, которое соответствует пикселям на изображении, которое ядро ​​должно найти и извлечь. Затем к этой конкретной области изображения применяется фильтр, и входные данные преобразуются в выходной массив.

Например, как видно на диаграмме, ядру был передан массив пикселей, соответствующих ноге зебры (особенность зебры, которую необходимо извлечь), и он преобразуется в выходные данные. По мере того, как один слой производит выходные данные, передаваемые следующему слою, извлеченные признаки становятся все более сложными. Это означает, что алгоритм начинает выявлять более тонкие детали и характерные черты. Третий слой ConvNetсопоставляет извлеченные объекты с конечным результатом, поскольку изображение выравнивается в вектор-столбец и передается в базовую искусственную нейронную сеть, о которой я говорил ранее.

ConvNets в случае с Моной Лизой использовались для изучения и картирования выражений лица и движений человека из 3 наборов данных, что привело к трем очень разным и реалистичным анимациям говорящей Моны Лизы.

Что дальше?

Прямо сейчас увидеть, как Мона Лиза оживает, — это лишь одна из многих вещей, на которые способны нейронные сети. В будущем мы можем ожидать, что нейронные сети будут способствовать развитию мира искусства, сочиняя музыку, блистать в медицинской индустрии, помогая людям диагностировать себя, и даже будут использоваться для создания навязчиво реалистичных, дипфейковых репортеров новостей!