В этой статье обсуждаются основные моменты статьи EnhanceNet о сверхвысоком разрешении одного изображения и производительность различных его версий. Я хотел бы в основном подчеркнуть его функции потерь, которые отвечают за качество восприятия, близкое к исходному изображению с высоким разрешением.

Фон

В сверхразрешении одиночного изображения модели CNN на основе объективных метрик (например, среднеквадратичной ошибки) могут давать хорошие значения PSNR, но обычно дают чрезмерно сглаженные изображения и, таким образом, не могут улавливать высокочастотные особенности изображения. EnhanceNet - это Генеративная состязательная сеть, которая фокусируется на создании реалистичных текстур с более высоким качеством восприятия, а не просто на улучшении значений PSNR.

Сетевая архитектура

  • EnhanceNet имеет общую архитектуру CNN с полностью сверточной сетью с прямой связью, состоящей из 10 остаточных блоков, поскольку они помогают ускорить сходимость модели.
  • Вместо свертки транспонированных слоев повышающая дискретизация ближайшего соседа с последующим сверточным слоем используется в повышающей дискретизации части сети, чтобы избежать ненужных артефактов.
  • Наконец, к восстановленному результату добавляется бикубическая интерполяция изображения с низким разрешением, чтобы избежать каких-либо сдвигов цвета и обеспечить стабильность обучения.

Функции потерь

Это столпы EnhanceNet, были изучены характеристики различных комбинаций этих потерь.

(i) Пиксельная потеря MSE в области изображения (Le)

Это потеря при заходе на посадку по базовой линии, которая представляет собой среднеквадратичную ошибку между оцененным изображением и истинностью на земле.

(ii) Потеря восприятия в пространстве функций (Lp)

Потери восприятия обычно основаны на генерировании выходных данных для сверхразрешенного изображения из разных слоев известной сети VGG (которая является картой характеристик - φ). В предварительно обученной сети VGG-19 сопоставление изображения с пространством признаков начальных сверточных слоев фокусируется на высокочастотных характеристиках (подробный пиксельный контент), а сопоставление с более поздними слоями подчеркивает первичная структура изображения. Таким образом, комбинация второго и пятого уровней максимального объединения сети VGG19 используется для расчета воспринимаемых потерь.

(iii) Потеря соответствия текстуры (Lt)

Это основано на бумаге style-transfer, которая передает стиль текстуры от одной картины к другой. Участки изображения (16x16 пикселей) используются для вычисления этой потери, чтобы сконцентрироваться на совпадении локальной текстуры с изображением с высоким разрешением. φ представляет собой карту функций, созданную из сети VGG19. G (f) - функция Грама, которая вычисляет произведение матрицы с ее транспонированием.

(iv) Проигрыш от состязания (La)

Это типичные минимаксные потери GAN, которые пытаются оптимизировать производительность как генератора, так и дискриминатора.

Оценка

  • Из двух приведенных выше рисунков можно заметить, что ENet-PAT по восприятию выглядит наиболее близким к изображению HR, в то время как изображение базового подхода ENet-E выглядит очень размытым, хотя кажется, что оно дает самые высокие значения PSNR.
  • ENet-P имеет тенденцию создавать более резкие края, чем ENet-E, но создает неоднородные артефакты вместо нового поколения текстур.
  • ENet-PA обеспечивает лучшую детализацию, но также имеет нежелательный высокочастотный шум.
  • Потеря текстуры в ENet-PAT помогает создавать значимые локальные текстуры и в значительной степени снижает шум и артефакты.

Ссылка

[2017 ICCV] [EnhanceNet]
EnhanceNet: сверхвысокое разрешение одного изображения благодаря автоматическому синтезу текстур

PS:

Это мой первый рассказ на Medium. Пожалуйста, не стесняйтесь добавлять любые комментарии или предложения по мере необходимости :)