Возможные проблемы с потерей сверхразрешения на основе глубокого обучения

Супер разрешение

Сверхвысокое разрешение (SR) - это задача восстановления изображений с высоким разрешением (HR) из их аналогов с низким разрешением (LR). Недавние подходы к SR продемонстрировали потрясающие характеристики реконструкции с точки зрения качественных перцепционных и количественных тестов (PSNR, SSIM). Хотя многие проблемы из предыдущих подходов были решены путем дальнейших исследований, мы по-прежнему считаем, что современные методы SR на основе DL наследуют фундаментальные проблемы, особенно от их функции потерь. Мы специально сосредоточимся на проблемах текущих подходов к сверхразрешению одиночного изображения (SISR), когда мы получаем одно одиночное изображение LR и стремимся вывести изображение HR.

Сначала мы сделаем очень быстрый обзор текущих методов SR на основе глубокого обучения. Для более подробного обзора методов SR на основе DL обратитесь к этой статье и этой публикации в блоге.

Модельные архитектуры

Существует несколько подходов к задаче SISR с точки зрения функций потерь и архитектур моделей. Некоторые методы описаны выше. После выпуска SRCNN, впервые вводящего сверточные нейронные сети в задачу SR, были предложены сотни вариантов, изменяющих архитектуру модели.

Эти методы включают FSRCNN, VDSR, ESRCNN и модели, основанные на остаточных блоках, таких как EDSR, MDSR, CARN. Также были представлены рекуррентные сетевые подходы и блочные подходы DenseNet. Наконец, была предложена архитектура, основанная на внимании, которая в основном использует канальные и прогрессивные модели.

Также были предложены и применены для различных архитектур моделей различные методы повышающей дискретизации, такие как мозаика пикселей ESRCNN, предварительная повышающая дискретизация и деконволюция.

Потеря, основанная на содержании

Первые подходы, такие как SRCNN, предлагали алгоритм обучения, основанный на потере контента или в основном на потере MSE между восстановленным изображением f (LR) и изображением HR. Это также напрямую способствует метрике PSNR. Это предложение о потерях кажется очень разумным и простым, но оно наследует очень фундаментальную проблему, поднятую в статье SRGAN.

Эти подходы, ориентированные на PSNR, имеют тенденцию выдавать сглаженные результаты без достаточных высокочастотных деталей, поскольку показатели потерь MSE и PSNR принципиально не согласуются с субъективной оценкой людей-наблюдателей. Это связано с тем, что существует несколько возможных выходов для одного заданного патча LR, и решение на основе MSE обычно находит пиксельное среднее решений, которое может не существовать на истинном коллекторе HR, и сглаживается. Это показано на рисунке ниже.

Например, могут быть два изображения HR HR1 и HR2, которые выводят очень похожие изображения LR. Таким образом, когда задан только LR, реконструкция f (LR) может быть HR1 или HR2, но потеря MSE способствует выводу среднего из двух возможных фрагментов HR.

Хотя некоторые случаи могут быть изучены с помощью очень сложных нейронных сетей, такое поведение SR, заключающееся в том, что правильный HR-патч для одного данного LR-изображения не является единичным, является фундаментальным ограничением решений на основе MSE и имеет поведение для вывода излишне сглаженных выходных данных.

Решения этого поведения

В качестве решения этого явления, когда модели SR выводят излишне сглаженные изображения, в одном из направлений работы предлагаются генеративные состязательные сети (GAN). Эти работы включают SRGAN, EnchanceNet, ESRGAN и недавний RSRGAN. Работы на основе GAN обычно используют сумму потери контента и состязательной потери. Они также часто используют потерю восприятия, часто промежуточную активацию предварительно обученной сети VGG19. Уравнение ниже представляет собой формулировку потерь ESRGAN.

Согласно эмпирическим результатам из статьи SRGAN, использование только потерь GAN не было достаточным для генерации деталей текстуры с высоким разрешением и должно было сочетаться с потерей восприятия.

Решения на основе GAN не работают сравнимо с моделями на основе MSE с точки зрения количественных пиксельных метрик, таких как PSNR и SSIM, но демонстрируют лучшее качество восприятия и очень высокие средние оценки мнения (MOS), что во многих случаях является ключевым моментом.

Хотя решения на основе GAN являются лучшими решениями, которые предпочитают качество восприятия, и они наиболее успешны в создании фотореалистичных изображений HR, они унаследовали проблемы от обучения GAN. Наблюдения за решениями SR на основе GAN и мое личное мнение обнаруживают четыре практических и концептуальных проблемы с изучением SR на основе GAN.

Нежелательные артефакты: генератор часто генерирует изображения, далекие от изображения LR, с нежелательными артефактами, присутствующими в изображении. Эти артефакты в совокупности объясняются нестабильностью обучения GAN и всеми перечисленными ниже проблемами.
Переобучение D: предложенное BigGAN как фундаментальная проблема в обучении GAN, состязательное обучение никогда не завершается, и дискриминатор склонен к переобучению. Я считаю, что переоснащение D может быть больше в SR, потому что количество изображений невелико, а G не получает никакого шума, что ограничивает возможность вывода распределения изображений с помощью G.
Нет возможности выводить распределения. Одно из фундаментальных различий в сети генератора между обычными GAN и GAN для SR - это отсутствие шума или скрытого вектора. Следовательно, модель может выводить только одно изображение для одного данного патча LR. Согласно статье STF-SR, модель должна иметь возможность выводить разные результаты SR для разной информации об окружении и текстуре. Я считаю, что это ключевая причина коллапса легкого режима при тренировках с более высоким коэффициентом проигрыша.
Смешивание потерь: сочетание нескольких потерь может быть выгодным с точки зрения введения компромисса между двумя крайними состояниями. Но это также означает, что ни одна из потерь не может быть оптимальной мерой для измерения общей производительности SR. Я считаю, что есть ключевой элемент, потерянный в SR на основе GAN, и его необходимо разрешить в терминах модифицированной функции потерь.

В заключение, генератор может выводить только одну копию SR, в то время как может быть несколько решений, обусловленных контекстом полного изображения и текстуры конкретной части. Это также может привести к переобучению D, потому что сгенерированные изображения имеют меньше вариаций. Смешивание потерь также не является фундаментальным решением проблемы невозможности обеих потерь. Я очень уверен, что есть место для концептуального улучшения функции потерь для SR.

Операция понижающей дискретизации

Если аналоги LR генерируются с помощью бикубической понижающей дискретизации или другого конкретного метода LR = bic (HR), сверхразрешение направлено на получение обратной функции bic: f (LR) = HR. Но в реальных задачах не гарантируется, что операция понижающей дискретизации относится к той конкретной операции, которая используется для обучения. Об этом мы поговорим в следующем посте.