Нет, я не прошу вас создать робота и заставить его рисовать. Я говорю о генеративно-состязательных сетях (GAN). GAN произвели революцию в мире ИИ, предоставив один из самых умных способов создания таких материалов, как речь, изображения, музыка; которые поразительно похожи на то, что производят люди. Эти алгоритмы, как правило, извлекают уроки из входных данных, фиксируют несколько наиболее важных характеристик входных данных и производят выходные данные, которые имеют сходные характеристики предоставленных входных данных. Например, если скормить алгоритму GAN тысячу актеров, сыгравших Джеймса Бонда, скорее всего, «сгенерированное» алгоритмом изображение, вероятно, будет выглядеть так же очаровательно, как Роджер Мур в расцвете сил.

Давайте немного углубимся!

Введение в GAN

GAN, генеративно-состязательные сети — проще говоря, это передовые алгоритмы, основанные на нейронных сетях, которые могут изучать данные и генерировать совершенно новые данные на основе особенностей, полученных из данных. Возьмите кофе, давайте разберемся с этим на примере.

У Джерри есть бизнес. Он управляет магазином графики, где к нему обращается голливудский режиссер, чтобы создать графику для аудитории, состоящую из множества людей, которые с улыбкой болеют за своего актера. Джерри мог бы использовать возможности GAN и создавать новые лица из набора изображений, которые у него уже есть. Таким образом, вся проблема собирать людей, фотографировать их, спрашивать их разрешения заменяется всего одним алгоритмом ИИ. С небольшим графическим моделированием кассовые сборы — это один фильм от переполненного пятничного вечера.

Как работает GAN?

Предположим, мы создаем GAN для разработки изображений. Деловой интерес заключается в создании новых изображений из набора реальных фотографий. Система состоит из сети генератора и сети дискриминатора — как бы фантастично это ни звучало, на самом деле они довольно просты. Генератор похож на одного из тех сообразительных юристов, которые пытаются сгенерировать новые улики (здесь — изображения) из набора улик, которые он видел на месте преступления (обучающие изображения). Жюри здесь — это дискриминатор, который решает, действительно ли сгенерированные данные сгенерированы или взяты из самого обучающего набора. Это обнаружение истины с помощью дискриминатора выполняется с использованием логики бинарной классификации, выполняющей под капотом сигмовидную функцию.

Здесь интересно отметить, что дискриминатор в основном оценивает вероятность того, что выборка получена из реальных данных или сгенерирована с использованием порогового отсечения вероятности, которое можно настроить на основе оценки бизнес-затрат на ложные срабатывания и ложные отрицания.

Запуск GAN

Теперь, когда мы знаем, как работают GAN, давайте разберемся с процессом обучения GAN. На первом этапе мы обучаем дискриминатор и замораживаем генератор. По сути, это позволяет сети выполнять прямое распространение и ограничивать обратное распространение. Это означает, что мы показываем фактические доказательства, которые мы нашли на месте преступления, присяжным, чтобы они научились отклонять их, если сгенерированные генератором изображения взяты из обучающих данных.

Второй шаг — обучение генератора и замораживание дискриминатора. Мы получаем результат первой фазы и можем использовать его для улучшения выборки из предыдущего состояния; чтобы лучше обмануть дискриминатор. По сути, это механизм настройки, позволяющий сделать генератор более «умным» для создания лучших выборок.

Умный генератор

История до сих пор где-то намекает на то, что точная настройка генератора для получения определенного «стилевого» обучения может открыть новые возможности для создания образцов. Подумайте об этом, обычный генератор может найти только некоторые основные наиболее очевидные признаки, такие как пол, возраст, длина волос, очки и поза; объедините его с остальными вторичными функциями, такими как оттенок кожи, текстура и образцы продукции. Что неплохо, но сгенерированные сэмплы основаны на однотональной логике объединения A и B для получения C.

В то время как генератор, настроенный думать об изображении как о наборе «стилей», открывает двери для множества новых комбинаций каждого такого стиля, что приводит к более тонкому вниманию к чертам лица. Эта система, в которой каждый стиль управляет эффектами определенного масштаба, может помочь создать хорошо сбалансированное сочетание грубых стилей, средних стилей и тонких стилей для создания лучших образцов изображений. Что в бизнесе может означать — множество уникальных, напоминающих реальную жизнь изображений с человеческим оттенком.

Еще одним преимуществом этих настроенных генераторов является то, что они автоматически отделяют несущественные изменения от атрибутов высокого уровня, таких как поза лица, идентичность и симметрия. Это означает, что мы отфильтровываем изображения, которые не добавляют ценности; те, кто просто вариация поз, идентичность.

Мы также можем выбрать силу, с которой применяется каждый стиль образцов. Что неплохо, но сгенерированные сэмплы основаны на однотональной логике объединения A и B для получения C.

В то время как генератор, настроенный думать об изображении как о наборе «стилей», открывает двери для множества новых комбинаций каждого такого стиля, что приводит к более тонкому вниманию к чертам лица. Эта система, в которой каждый стиль управляет эффектами определенного масштаба, может помочь создать хорошо сбалансированное сочетание грубых стилей, средних стилей и тонких стилей для создания лучших образцов изображений. Что в бизнесе может означать — множество уникальных, напоминающих реальную жизнь изображений с человеческим оттенком.

Еще одним преимуществом этих настроенных генераторов является то, что они автоматически отделяют несущественные изменения от атрибутов высокого уровня, таких как поза лица, идентичность и симметрия. Это означает, что мы отфильтровываем изображения, которые не добавляют ценности; те, кто просто вариация поз, идентичность.

Мы также можем выбрать силу, с которой каждый стиль применяется к «среднему лицу», и точно настроить различные типы шумов, такие как грубые (завивка волос), тонкие шумы (более мелкие детали), и получить результаты, которые более четкие. жизненный. Для бизнеса это указывает на лучшую точность без присмотра человека. Чтобы разбить его, это означает, что создание базового изображения и исчерпывающее заполнение деталей с использованием стилей — это то, что делает этот генератор лучше.

Надеюсь, прочитав это, вы не удивитесь, если следующий Пикассо окажется черным ящиком, будет говорить на бинарном языке и потреблять на завтрак графику Nvidia!