Современное состояние реконструкции HDR

«Тебе просто нужно внимание, тебе не нужно мое сердце» - Чарли Пут

О бумаге

Ориентированная на внимание сеть для создания изображений с расширенным динамическим диапазоном без призраков (AHDRNet) - это современный современный уровень создания изображений HDR с использованием изображений с брекетингом экспозиции. Он был представлен на CVPR 2019, и его можно прочитать здесь. Основной автор, Донг Гонг, является докторантом Университета Аделаиды. Его интересы включают машинное обучение и оптимизацию компьютерного зрения.

Примечание: результаты изображений, сетевые представления, формулы и таблицы, используемые в этом сообщении блога, взяты из бумаги.

Прежде чем мы начнем, я бы порекомендовал вам ознакомиться с этим отрывком из одного из эпизодов моего подкаста, в котором мы говорим о состоянии компьютерной фотографии и обработки изображений HDR.

Эль проблема

Для создания изображения HDR из изображений LDR с брекетингом с мультиэкспозицией выравнивание изображений LDR очень важно для динамических сцен с движением в кадре. Несовпадения, которые не учитывались до слияния, вызывали артефакты ореола (среди прочего). Было несколько успешных (почти) попыток компенсировать это движение между кадрами с помощью оценки оптического потока. Как оказалось, недостатки потоковых методов не сослужили хорошую службу делу HDR.

Это можно увидеть в попытке Kalantari et. al , где независимо от точной пространственной реконструкции в насыщенных областях изображения могут наблюдаться артефакты совмещения для входных кадров с сильным движением. Это видно по результатам, предоставленным авторами AHDRNet на изображении ниже. Другая попытка реконструкции HDR, которая нацелена именно на высокодинамичный вход в скобках LDR (Wu et. Al.), Утверждает, что использует очевидное мастерство архитектур CNN в изучении несовпадений и компенсации артефактов ореола. Однако представленные ниже результаты показывают, что есть возможности для улучшения.

Внимание на помощь

Авторы предлагают использовать механизмы внимания для решения этой двусторонней проблемы уменьшения артефактов выравнивания + точной реконструкции HDR с помощью механизмов внимания. Если задуматься, сети внимания - это всего лишь несколько слоев Conv, сложенных вместе, за которыми (обычно) следует сигмовидная активация, которая позволяет сетям сосредоточиться на том, что важно и имеет отношение к приложению.

Здесь сети внимания используются для подавления артефактов совмещения и для фокусировки на вливании лучше экспонированных областей изображения в сгенерированное изображение, обращая внимание на пространственную динамику заключенных в скобки изображений по отношению к опорному изображению. Области, которые соответствуют эталонному изображению, выделяются, тогда как области с сильным движением и насыщенностью подавляются. Мы увидим, как матрица информации о внимании обрабатывается и реализуется с точки зрения математики, лежащей в основе этого, через некоторое время.

Часть внимания сети фокусируется на принятии решений о том, какие области изображения лучше влияют на точность выходных данных сети. За этим следует сеть слияния, которая на основе вывода внимания пытается создать контент HDR из ввода LDR. Чем лучше механизм внимания, тем лучше будет вход в сеть слияния, что позволит ей использовать информацию в более релевантных частях входа. Сеть слияния была разработана с использованием расширенных плотных остаточных блоков, которые улучшают градиентный поток, иерархическое обучение и сходимость. Вся сеть обучается сквозным образом, и поэтому обе подсети взаимно влияют друг на друга и обучаются вместе.

Реализация

Предварительная обработка

Нелинейный вход LDR (I1, I2, I3) переносится в линейную область путем применения обратного CRF (здесь гамма-коррекция) и деления на соответствующее время экспозиции.

И линейный, и нелинейный вход (Ii, Hi) объединяются по размерам канала, образуя Xi. X1, X2 и X3 подаются в сеть для создания соответствующего вывода HDR.

Сеть работает лучше, когда в ее распоряжении имеется линеаризованная входная информация. Это было замечено и использовано в Kalantari et. al , а также Wu et. ал .

Архитектура

Вся сеть состоит из двух подсетей - сети внимания и сети слияния.

Сеть внимания, как описано выше, помогает избежать артефактов совмещения путем выделения и использования информации из областей в соседних изображениях (неопорных изображений), которые соответствуют эталонному изображению. Это происходит следующим образом.

Внимание не извлекается и не применяется непосредственно к парам конкатенированных изображений. Сначала Xi проходят через слой Conv для извлечения 64-канальной карты характеристик Zi.

Затем справочная карта объектов (Z2 или Zr) вместе с картой объектов соседнего изображения (Z1 и Z3 ) подается в модуль внимания, который генерирует карту внимания, чтобы отмечать важные области на нереференсной карте функций со ссылкой на Zr.

Это сделано для обеих пар - (Z1, Z2) и (Z3, Z2). Это ясно видно на приведенном выше представлении сети.

Прежде чем мы перейдем к тому, что делает модуль внимания, давайте посмотрим, что делать с созданной картой внимания. Сгенерированная карта внимания - это, по сути, 64-канальная матрица, которая содержит значения между [0,1]. Эта матрица служит своего рода весовой матрицей, в которой каждый элемент представляет важность соответствующего элемента в матрице признаков соседнего изображения со ссылкой на Z2. Это реализуется с помощью карты внимания, созданной из (Z1, Z2) путем поэлементного умножения карты внимания и Z1 для получения Z'1.

Эта операция приводит к тому, что важные функции (где внимание ближе к 1) в Z1 получают более высокие числовые значения и, соответственно, более низкие значения для менее важных функций. Это проявляется только в важных областях изображения из Z1, идущих вперед по сети, чтобы внести свой вклад в окончательный вывод HDR. То же самое происходит между (Z3, Z2), чтобы получить Z’3.

Теперь, когда у нас есть все входные элементы, наиболее подходящие для построения HDR-изображения, мы объединяем их по размеру канала, как показано ниже:

Модуль внимания

Давайте посмотрим, как создаются эти карты внимания. Модуль внимания, используемый в этой статье, состоит из 2 слоев Conv2d, которые выводят 64-канальную матрицу, за которой следуют ReLU и сигмовидная активация соответственно. Он принимает в качестве входных данных объединенный вектор признаков соседнего и опорного изображения (2 x 3 = 6 каналов). Активация сигмовидной формы, в конце концов, используется для содержания выходного сигнала в диапазоне [0,1].

Внимание результаты

В пунктах (a) - (c) из приведенных выше результатов можно наблюдать, как области с несоответствиями движения в неопорных изображениях подавляются (более темная синяя область), тогда как области, которые соответствуют эталонному изображению, выделяются (более ярко-синим цветом зеленый). В пунктах (d) - (f) выделены области, которые лучше экспонируются в соседних кадрах, а насыщенные области подавлены.

Объединяющаяся сеть

Объединенная карта объектов (Zs) предоставляется в качестве входных данных для объединяющейся сети. Сеть слияния, используемая авторами, представляет собой остаточную плотную сеть, предложенную в Zhang et. ал . Вместо обычных операций Conv авторы использовали расширенные свертки для распространения большего рецептивного поля, таким образом назвав его Dilated Residual Dense Block (DRDB). В объединяющейся сети есть 3 таких блока, которые состоят из пропущенных соединений на основе плотной конкатенации и остаточных соединений, которые оказались достаточно эффективными для CNN при решении проблемы исчезновения градиента, позволяя улучшить обратное распространение, иерархическое обучение и, следовательно, помочь и улучшить производительность сходимости. В предлагаемой сети AHDRNet каждая DRDB состоит из 6 уровней Conv со скоростью роста 32.

Авторы также использовали локальные и глобальные остаточные пропускные соединения, которые обходят низкоуровневые функции на более высокоуровневые. Локальное остаточное обучение реализуется в DRDB, тогда как глобальное остаточное обучение предназначено для передачи неглубоких карт признаков, содержащих чистую информацию, из эталонного изображения на последние стадии. Эту и другие характеристики сети можно увидеть на диаграмме объединенной сети.

Функции потерь

Так же, как Kalantari et. al , потери рассчитываются между сгенерированными μ -законными тональными картами и тональными наземными истинными изображениями. μ был установлен на 5000 для всех экспериментов. μ -закон можно определить как -

Для этого использовалась потеря L1. Количественные сравнения оценок PSNR и HDR-VDP-2, представленные в документе, показывают, что потери L1 лучше при восстановлении более мелких деталей по сравнению с потерями L2.

Спецификации реализации

Архитектура реализована с использованием PyTorch. Технические характеристики и гиперпараметры:

  • Инициализация веса: Ксавье
  • Оптимизатор: ADAM
  • Скорость обучения: 1 x 10–5
  • Размер партии: 8
  • Графический процессор: NVIDIA GeForce 1080 Ti
  • Время вывода для 1 изображения (1500x1000): 0,32 сек.

Полученные результаты

Сети были обучены и протестированы на наборах данных, предоставленных Kalantari et. ал . Авторы представили количественные и качественные сравнения между несколькими вариантами сети с точки зрения оценок PSNR и HDR-VDP-2.

  • AHDRNet - полная модель AHDRNet.
  • DRDB-Net (то есть AHDRNet без внимания)
  • A-RDB-Net (то есть AHDRNet без расширения)
  • RDB-Net (то есть AHDRNet без внимания и расширения)
  • RB-Net (то есть AHDRNet без внимания, расширения и плотных соединений). DRDB заменены на RB.
  • Deep-RB-Net. Используется больше РБ.

Результаты показывают, насколько важен каждый компонент AHDRNet для эффективности всей сети, то есть важно внимание, важны расширенные свертки, важны плотные связи и важно остаточное обучение.

Сравнение с современным

Сравнение с современными подходами (на основе обучения и без обучения) показывает, насколько AHDRNet превосходит существующие подходы. Ближайшим конкурентом, очевидно, является Kalantari et. al , которая уступает только AHDRNet. Авторы также предоставили результаты варианта AHDRNet, в котором используются изображения, выровненные по оптическому потоку (AHDRNet + OF).

Визуальные результаты показывают эффективность сети в добавлении мельчайших деталей в сгенерированный вывод HDR без возникновения каких-либо артефактов выравнивания даже в случаях сильного движения. Вот некоторые из результатов, взятых из статьи -

Заключение

AHDRNet - это первый подход, основанный на внимании к решению проблемы генерации HDR-изображений. Изящество механизмов внимания было использовано для выравнивания входных изображений LDR. В предыдущих попытках совмещения изображений использовались методы, основанные на оптическом потоке, которые имеют некоторые неточности и плохо работают при резком движении между кадрами. Однако подход, основанный на внимании, очень хорошо работает с точки зрения реконструкции HDR, а также с точки зрения удаления артефактов выравнивания. Обширный эксперимент показывает, как AHDRNet заменяет существующие подходы в качественном и количественном отношении и что она стала новейшим достижением в области создания изображений HDR.

использованная литература