BoolGAN: DCGAN для создания изображений автомобилей

Генеративные состязательные сети (GAN) недавно вышли на передний план исследований компьютерного зрения благодаря своей способности изучать сложные распределения данных. Впервые они были предложены Яном Гудфеллоу и соавт. [2] в 2014 г. как фреймворк, в котором одновременно обучаются две модели (генератор и дискриминатор). Генератор пытается зафиксировать распределение данных и сгенерировать поддельные изображения, максимально соответствующие распределению, в то время как дискриминатор пытается различать реальные и поддельные изображения.

1. Введение

В статье [1] они исследуют использование GAN для генерации и вывода изображений автомобилей, используя в качестве входных данных случайный шум и изображения, взятые из набора данных об автомобилях.
Эта проблема технически интересна, потому что, несмотря на большой объем работы, проделанной в изучении GAN, были достигнуты успехи.
GAN, как известно, сложно обучить, поскольку они должны балансировать между обучением генератора и дискриминатора, а их свойства сходимости трудно определить.
Поскольку кажется, что не существует большого объема работ с использованием GAN на изображениях автомобилей, авторы надеются, что эта статья может дать дальнейшее понимание обучающих свойств GAN.
Еще одна причина, по которой авторы применяют GAN к изображениям автомобилей, заключается в том, что изображения автомобилей, сгенерированные противоборством, могут помочь в разработке будущих автомобилей, а также предоставить полезный критерий для нашей способности создавать убедительные изображения.

2. Набор данных

Авторы использовали набор данных, предоставленный Николя Жерве, который содержит 64 000 изображений автомобилей с указанием цены, года выпуска, типа кузова и т. Д.
Все эти изображения использовались в качестве обучающих данных, поскольку сети GAN не требуют фазы проверки или тестирования. В качестве шага предварительной обработки авторы изменили размер изображений (обычно размер 320 × 210 с приличным разрешением) до 64 × 64, прежде чем загружать их в свою модель.

3. Архитектура BoolGAN

В качестве базовой модели авторы использовали архитектуру DCGAN, предложенную в [3]. Дальнейшие изменения в этой модели привели к созданию новой надежной модели BoolGAN.
Авторы объединили Wasserstein GAN (WGAN) с базовым DCGAN. По сути, это избавляет дискриминатор (теперь называемый критиком) от его последнего сигмовидного слоя, возвращая скалярные оценки вместо вероятностей.

Wasserstein GAN предназначен для улучшения обучения GAN за счет принятия гладкой метрики для измерения расстояния между двумя распределениями вероятностей. Использование различных функций стоимости делает градиент более плавным и лучше обучается, даже если генератор не создает хороших изображений.

Небольшое улучшение, сделанное авторами, заключается в том, что после добавления WGAN в DCGAN в конце дискриминатора добавляется слой исключения.
Это сделано потому, что GAN легко застревают, поэтому они подумали, что введение случайности и стохастичности может помочь GAN в таких ситуациях и, таким образом, повысить производительность.
После этих изменений базовый DCGAN модифицируется авторами. Базовая архитектура DCGAN использует серию транспонированных двумерных сверточных слоев (наряду с пакетной двумерной нормализацией и ReLU) для получения изображения размером 64 × 64 с 3 каналами. Эта грубая природа DCGAN будет иметь больше шума в сгенерированных изображениях.
Таким образом, авторы добавили несколько слоев свертки, чтобы помочь сгладить шум и улучшить производительность BoolGAN.
Чтобы сохранить те же размерности 64 × 64, возвращаемые генератором, авторы применяют дополнительный транспонированный сверточный слой, чтобы увеличить размерность до 128 × 128 с 3 каналами, прежде чем применить наш 2D сверточный слой, который изменяет размерность до 64 × 64 с 6 каналами.
Поскольку это вдвое больше желаемого количества каналов, авторы наконец применяют двумерный сверточный слой с фильтром 1 × 1, который уменьшает количество каналов с 6 до 3. На следующем изображении представлена архитектура BoolGAN, представленная в [1].

4. Результаты

Авторы используют метрику Frechet Inception Distance (FID) для сравнения производительности DCGAN и BoolGAN.

Оценка Расстояние начала Фреше, или сокращенно FID, - это показатель, который вычисляет расстояние между векторами признаков, рассчитанными для реальных и сгенерированных изображений.

Различные настройки гиперпараметров настроены в архитектуре для получения наилучших результатов.

5. Вывод

После тестирования авторами 5 различных глубоких сверточных сетей GAN на наборе данных автомобилей, кажется, что предлагаемая нами архитектура BoolGAN улучшает базовую архитектуру DCGAN, первоначально предложенную в [3].
Добавление потери Вассерштейна привело к снижению коллапса режима и балла FID, что может свидетельствовать о повышении стабильности при обучении GAN.
Добавление слоя исключения также привело к снижению оценки FID, показывая, что добавление стохастичности и случайности может привести к повышению производительности.
Кроме того, добавление сверточных слоев в конце генератора для архитектуры BoolGAN, похоже, улучшило выразительность модели и сгладило шум.

6. Ссылки

[1] Ким, Донг Хуэй. «Глубокие сверточные сети GAN для создания изображений автомобилей». Препринт arXiv arXiv: 2006.14380 (2020).

[2] Гудфеллоу, Ян и др. «Генеративные состязательные сети». Достижения в области нейронных систем обработки информации. 2014 г.

[3] Рэдфорд, Алек, Люк Мец и Сумит Чинтала. «Неконтролируемое обучение представлений с глубокими сверточными порождающими состязательными сетями». Препринт arXiv arXiv: 1511.06434 (2015).