Подход на основе CNN к переносу «художественного стиля» с одного изображения на другое.

Сверточные нейронные сети (CNN) в настоящее время являются самыми современными приложениями компьютерного зрения, особенно классификацией и обнаружением объектов. В этой статье мы рассмотрим нетрадиционное применение CNN — перенос стиля. Это относится к процессу извлечения «художественного стиля» из изображения S, и применения к другому изображению C,сохранения семантического содержания. изС.

Давайте посмотрим на результаты, прежде чем обсуждать подход.

Результаты

Как это делается?

CNN очень эффективны в приложениях классификации из-за их способности извлекать признаки из изображений. Признаки, извлекаемые из изображения, обычно представляют собой низкоразмерные представления изображения, которые кодируют различные атрибуты изображения — текстуру, цвет, семантическое содержание и т. д. Передача нейронного стиля (NST) основана на тщательном изучении этих признаков и успешном выделении признаков, несущих информацию о стиль из тех, которые содержат информацию о содержании.

Как только мы сможем различать 2, теоретически можно объединить стиль одного изображения с содержимым другого изображения:

Подход

Вышеупомянутый перенос стиля может быть достигнут систематически с использованием CNN и тщательно разработанных функций извлечения и потери признаков.

Сеть трансформации

сеть преобразования – это генеративная нейронная сеть, которая принимает изображение в качестве входных данных и генерирует другое изображение в качестве выходных данных.

Веса сети преобразования обучаются таким образом, что:

  1. «потеря контента» между входным (изображением контента) и выходным изображением сведена к минимуму. Это гарантирует, что семантическое содержание изображения содержимого и выходного изображения будет одинаковым.
  2. «потеря стиля» между изображением стиля и выходным изображением сведена к минимуму. Это гарантирует, что стиль в образе стиля переносится на выходное изображение.

Таким образом, выходное изображение будет иметь содержимое из изображения содержимого и стиль из изображения стиля.

Потеря стиля и контента вычисляется не непосредственно на изображениях, а на характеристиках изображений, извлеченных из предварительно обученной нейронной сети (VGG19, предварительно обученной на наборе данных imagenet).

Потеря контента

Итак, для расчета потеря контента мы извлекаем признаки из достаточно высокого слоя предварительно обученной модели VGG. Чем выше уровень, тем более абстрактны функции. Функции содержат информацию о воспринимаемом содержании — например, контур здания, основные конструкции и очертания. Потеря контента — это евклидово расстояние между функциями контента, извлеченными из контента, и выходными изображениями.

Потеря стиля

Для расчета потерь стиля мы извлекаем признаки из нескольких слоев модели VGG. Затем мы строим представление стиля для этих функций, вычисляя матрицы Грама (точечный продукт карт функций). Это представление показало сохранение стиля изображения (текстуры, цвета и т. д.) без сохранения пространственной структуры/содержания. Потеря стиля — это евклидово расстояние между представлениями стиля и выходными изображениями.

Обучение

Общие потери, которые необходимо минимизировать в процессе обучения, представляют собой взвешенную сумму потерь стиля и содержания. Когда ошибки сходятся, сеть преобразования способна генерировать изображение, которое поддерживает пространственную структуру и перцептивное содержание изображения содержания и художественный стиль для изображения стиля.

Полный код на моем Github

Плечи гигантов

  1. Нейронный алгоритм художественного стиля — https://arxiv.org/pdf/1508.06576.pdf
  2. Потери восприятия для передачи стиля в реальном времени и сверхвысокого разрешения — https://arxiv.org/pdf/1603.08155.pdf
  3. Канал прозрения ИИ на YouTube — https://www.youtube.com/watch?v=S78LQebx6jo&list=PLBoQnSflObcmbfshq9oNs41vODgXG-608
  4. Сеть высокого разрешения для передачи фотореалистичного стиляhttps://arxiv.org/pdf/1904.11617.pdf
  5. https://github.com/gordicaleksa/pytorch-neural-style-transfer
  6. https://github.com/limingcv/Photorealistic-Style-Transfer

Об авторе

Я работаю специалистом по данным в Dubai Holding, ОАЭ. Вы можете связаться со мной по адресу [email protected] или https://www.linkedin.com/in/kvsnoufal/