На Arxiv есть тысячи академических статей, так какие из них стоит прочитать? Я прочитал сотни статей о GAN, когда искал свою книгу, и ниже приведены 12 самых влиятельных статей (с 2014 по 2019 год), которые я нашел. После 2019 года появилось не так много прорывных статей о GAN. Нажмите на название и изображение, чтобы перейти к источнику.
- Generative Adversarial Networks. Самая первая статья о GAN, написанная Яном Гудфеллоу и др. в 2014 году. В этой статье описывается архитектура GAN, состоящая из генератора и дискриминатора. Он также обеспечивает математический вывод потерь противника.
- Автоматическое кодирование вариационного Байеса. Вариационный автоэнкодер (VAE), демонстрирующий кодирование пикселей большого размера в пространство малого размера. Многие продвинутые GAN используют VAE в качестве кодировщика.
- Неконтролируемое репрезентативное обучение с помощью глубоких сверточных генеративно-состязательных сетей. DCGAN, установили архитектуры CNN в генераторе и дискриминаторе. Также продемонстрируйте использование векторной арифметики для интерполяции/исследования скрытого пространства.
- Вассерштейн ГАН. Эта статья математически доказывает, почему обучение GAN нестабильно. Потеря Вассерштейна позже широко не использовалась, но его подход к анализу GAN с математической строгостью с использованием ограничений Липшица вдохновил на инновации, упрощающие обучение GAN.
- Условные генеративно-состязательные сети. Более ранние GAN генерировали изображения только из случайного шума. В этой статье показано, как кодировать метки классов во встраивание и использовать это для создания образцов из нужных меток классов.
- Преобразование изображения в изображение с помощью условных состязательных сетей. Pix2pix. Первая GAN с преобразованием изображения в изображение, привлекшая внимание общественности, включая приложение для преобразования эскиза в кошку. Он также популяризирует использование PatchGAN (предварительно вычисленный синтез текстур в реальном времени с марковскими генеративно-состязательными сетями https://arxiv.org/abs/1604.04382) в дискриминаторе для повышения точности генерируемых изображений.
- Преобразование непарного изображения в изображение с использованием циклически согласованных состязательных сетей. CycleGAN позволяет выполнять непарный перевод изображений, наиболее известный тем, что используется для преобразования лошади в зебру.
- Нейронный алгоритм художественного стиля. Передача нейронного стиля для преобразования фотографий в художественные картины. Для меня это самая недооцененная бумага для создания изображений. Эта статья возглавила исследование распутывания, в котором изображение разделяется на стиль и содержание. В конечном итоге это привело к созданию StyleGAN.
- Постепенное развитие сетей GAN для повышения качества, стабильности и разнообразия. ПрогрессивГАН. Первое поколение высокоточных портретов с разрешением 1024x1024 за счет постепенного увеличения слоя.
- Архитектура генератора на основе стилей для генеративно-состязательных сетей. СтильGAN. Документ включает распутывание стилей в ProgressiveGAN, чтобы стать SOTA в генерации лиц. Его преемник StyleGAN2 очень тонко повышает качество изображения, и его основное улучшение заключается в повышении вычислительной эффективности.
- Спектральная нормализация для генеративно-состязательных сетей. Спектральная нормализация — важный метод стабилизации обучения GAN за счет ограничения роста веса. Сейчас это используется практически во всех GAN.
- Состязательные сети, генерирующие собственное внимание. Самовнимание ГАН (САГАН). Transformer заменил RNN и LSTM в обработке естественного языка (NLP) и произвел фурор в компьютерном зрении. SAGAN вводит в GAN самоанализ (трансформатор), чтобы зафиксировать большое разнообразие различных классов изображений.
Этот список не является исчерпывающим, но это важные документы, которые подготовят вас к пониманию современных исследователей. Мой прогноз на 2021 год (дата этой статьи) заключается в том, что будет широко распространено использование transformer и слияние языков, например. преобразование текста в изображение, как в модели OpenAI DALL-E.
Надеюсь, вам понравится читать эту статью. Если вы заинтересованы в реализации этих моделей, вы можете найти эту информацию в книге Практическое создание изображений с помощью TensorFlow. Вы можете прочитать обзор в https://soon-yau.medium.com/learn-and-master-ai-for-image-generation-423978e2f95f?sk=7ddc810a5f86021bc79792bf6af2eaed