ТЕХНОЛОГИЯ ЭКСПЕДИА ГРУПП - ДАННЫЕ

Сверхвысокое разрешение изображения с использованием внимательного GAN в Expedia Group

Эффективное решение машинного обучения для масштабирования изображений с сохранением качества изображения.

Авторы: Харш Патак, Шервин Минаи, Синьсинь Ли, Томас Крук

Вступление

Веб-сайты о путешествиях используют высококачественные и привлекательные изображения. Изображения отелей - это мощный инструмент, который можно использовать для создания исключительного качества обслуживания клиентов. Они позволяют зрителю получить важную информацию об объекте и вдохновляют воображение зрителя. Expedia получает миллионы изображений от наших пользователей и партнеров по отелям. Мы хотим, чтобы изображения, отображаемые для наших клиентов, были очень высокого качества и соответствовали законам. Очевидно, что не все изображения соответствуют этим минимальным требованиям.

Когда мы начинаем с изображения небольшого размера, мы можем либо добавить черные границы, чтобы компенсировать пустое пространство в отображении галереи, либо растянуть изображение до размеров, используя стандартное увеличение. Это часто приводит к заметной пикселизации и артефактам. Пиксельное изображение не создает исключительных впечатлений, которые мы хотим получить от наших клиентов. В этой работе мы исследуем решения проблемы создания высококачественных изображений из изображений небольшого размера в коммерческих условиях. Мы разработали модель машинного обучения для более динамичного масштабирования изображений таким образом, чтобы максимально сохранить качество изображений, обеспечивая при этом гораздо больший размер дисплея.

Вызовы

Мы провели обширный обзор литературы и нашли множество интересных подходов. Но большинство предыдущих работ сосредоточено на небольших размерах изображений, что означает увеличение крошечного изображения (скажем, ~ 100 пикселей) в четыре раза. Нашему бизнесу нужно, чтобы мы создавали изображения с более высоким разрешением, чем это. Нам было поручено создать изображения размером не менее 2000 пикселей - в четыре раза больше, чем размеры, обычно сообщаемые в литературе. Такие большие изображения широко известны как изображения высокой четкости, в этом блоге мы будем обращаться к ним как к изображениям высокого разрешения (HR). Большая часть старых изображений в нашем инвентаре не соответствует этому критерию минимального разрешения, поэтому нам необходимо увеличить их масштаб. Это создает проблему. Современные модели, проверенные на крошечных изображениях (100 пикселей), не могут работать с изображениями большего размера. При таком разрешении (2000 пикселей) избежать мелких артефактов пикселизации чрезвычайно сложно. Увеличиваются изображения и пикселизации. Кроме того, изображения большого размера более восприимчивы к проблеме согласованности объектов из-за большего количества пикселей и долговременных зависимостей между различными областями изображения. Эти проблемы побудили нас глубоко погрузиться в литературу о сверхвысоких разрешениях и предложить эффективное решение.

Источник данных

SISR - это хорошо изученная проблема, имеющая широкое коммерческое значение. Классические методы сверхвысокого разрешения (билинейные, бикубические и т. Д.) Во многих случаях не могут обеспечить привлекательные для восприятия изображения. Разработка модели глубокого обучения для решения этой проблемы со сверхвысоким разрешением одного изображения (SISR) представляется более общим и надежным решением. Мы изучили несколько подходов к глубокому обучению, которые потенциально могут решить эту проблему. Чтобы оценить эти идеи, нам потребовались тысячи изображений с парами высокого и низкого разрешения для обучения модели.

У нас было большое хранилище изображений с разнообразными сценами, объектами и местностями со всего мира. Затем нам потребовались пары изображений с высоким и низким разрешением (LR) для обучения нашей модели.

Для нашего первого набора данных (обучения) мы использовали изображения 20k HR (~ 2000 пикселей) и синтетически создали для них соответствующие пары LR, применив понижающую дискретизацию. Для нашего второго набора данных (тестирования) у нас было более 3000 изображений разного разрешения. Чтобы получить одобрение, нам нужно было набрать минимальный балл по нашему набору данных тестирования. Обратите внимание, что наши тестовые наборы представляют собой оригинальные изображения небольшого размера, полученные от партнеров из отелей, а не созданные синтетическим путем.

Модель Архитектура

Ранние модели сверхвысокого разрешения (SR) в основном основывались на разреженном кодировании. В последнее время подходы к глубокому обучению дали положительные результаты во многих задачах компьютерного зрения. Существует много интересных структур глубокого обучения для SR (например, модель на основе сверточной нейронной сети (CNN), а также модели на основе генеративных состязательных сетей (GAN)), но здесь мы сосредоточимся на моделях, имеющих особое отношение к нашей работе: ГАН (SRGAN¹) и самовнимание GAN (SAGAN²).

Тонкая настройка на предварительно обученном SRGAN:

В качестве базового уровня мы применяем предварительно обученную модель SRGAN⁵ к нашему испытательному набору исходных изображений меньшего размера. Эта модель была обучена с помощью набора данных RAISE, который включает изображения ЧСС из пространства с большим разрешением (8 156 изображений в диапазоне от 2500 до 4000 пикселей). Таким образом, у нас есть основания полагать, что он более совместим с нашим целевым пространством разрешения, чем модели, обученные на изображениях меньшего размера в других общедоступных наборах данных, таких как ImageNet. Но мы наблюдали множество пикселов и синих пятен в некоторых местах изображения. Поэтому мы решили доработать эту модель с помощью высококачественных изображений Expedia. После всего лишь 10 эпох обучения с изображениями 11,5k Expedia мы смогли увидеть значительные улучшения, и почти все синие пятна исчезли. Учитывая приведенный выше результат, мы думаем, что более ранние артефакты с предварительно обученными моделями были вызваны различиями в предметной области между RAISE и набором данных Expedia.

Далее мы проанализировали несколько тысяч изображений вручную и обнаружили некоторые «звенящие» артефакты наряду с долгосрочными зависимостями, такими как стены, столы, края бассейна и т. Д. Нам нужно было расширить модель, чтобы улучшить несогласованность объектов³, которую мы увидел в подходе тонкой настройки. Чтобы решить эту проблему, мы привлекли внимание к основной части изображения.

Самовнимание - дорогое удовольствие, если уместить его в памяти графического процессора для изображений большого размера:

Идея включения компонента внимания в задачу SR заключается в том, чтобы зафиксировать долгосрочные многоуровневые зависимости между областями изображения, которые находятся далеко друг от друга и не видны ядрам. Однако объем памяти, необходимый для хранения корреляционной матрицы (т. е. карты внимания) слоя самовнимания SAGAN, недопустимо велик для крупномасштабных изображений¹. Например, сглаженная корреляционная матрица для входного изображения размером 500 * 500 пикселей составляет 250 * 250 тыс. Пикселей, что очень дорого хранить в памяти.

Чтобы решить эту проблему с памятью, мы пришли к идее гибкого самовнимания (FSA), которое, по сути, использует объединение и отключение для привлечения внимания меньшего размера. карта. Наш слой FSA добавляет внимание к модели, не увеличивая объем памяти для крупномасштабных изображений. Мы оборачиваем слой самовнимания SAGAN с помощью max-pooling, а затем изменяем размер изображения, чтобы он соответствовал форме входных данных, как показано на рисунке 1. Поскольку входные и выходные карты функций имеют одинаковый размер, FSA может быть вставлен между любые два сверточных слоя. Эта упаковка уменьшает размер карты внимания, позволяя нам обращать внимание на изображения большого размера на графических процессорах, таких как Nvidia Tesla K80.

Затем мы обучили нашу модель с помощью 20k изображений и наблюдали значительное улучшение показателя SSIM (структурное сходство) на нашем тестовом наборе. Это стало сильным сигналом о том, что добавление внимания к модели улучшает структурную согласованность выходных изображений. Это также можно увидеть на рисунках 3 и 4.

Предлагаемая модель внимания:

Архитектура A-SRGAN расширяет SRGAN¹ за счет уровня гибкого уровня самовнимания (FSA), вдохновленного SAGAN². Рисунок 2 объясняет архитектуру нашей модели. Обратите внимание, что операция обучаемой суммы относится к взвешенному пропуску соединения от SAGAN. В каждом слое веса нормализованы с использованием спектральной нормализации. Сети генераторов и дискриминаторов A-SRGAN показаны с соответствующими размерами ядра (k), количеством карт характеристик (n) и шагом (s).

Оценка модели

Качественные результаты:

Сгенерированные изображения с высоким разрешением для двух примеров нашей модели представлены ниже. Мы увеличили небольшой фрагмент каждого изображения, поскольку эти изображения как минимум HD. При просмотре на экране компьютера необходимо увеличить изображение в 4–6 раз, чтобы увидеть, как работает модель.

Ниже мы также показываем сравнение результатов нашей модели с результатами, полученными с помощью настроенной модели SR-GAN на образце изображения. Вы можете видеть, что на выходе SR-GAN все еще есть некоторые артефакты вокруг текстов и областей крыши, в то время как выходные данные нашей модели имеют значительно меньше артефактов и лучшую структурную согласованность.

Количественные результаты:

Существуют различные способы количественной оценки производительности модели SISR. Одним из популярных показателей является отношение пиковый сигнал / шум (PSNR), которое логарифмически обратно пропорционально MSE между выходным и целевым изображениями ЧСС. Другой показатель - SSIM, который, как считается, больше коррелирует с визуальным восприятием человека. Но ни один из них не может сравниться с человеческим результатом. Во многих исследованиях Средняя оценка мнения (MOS) используется в качестве основного показателя оценки, чтобы проиллюстрировать эффективность модели SISR. MOS представляет собой средний балл, присвоенный людьми при моделировании сгенерированных изображений.

В отношении MOS мы обратились за помощью к профессиональным медиа-экспертам из отдела контента Expedia. Они провели тщательную независимую оценку изображений (путем увеличения в 4 раза) в нескольких частях изображений и предоставили двоичную оценку для всех изображений. Эта команда хорошо обучена обнаруживать мелкие дефекты и артефакты изображений. В таблице 1 мы сообщаем MOS для изображений с различными диапазонами разрешения. Как мы видим, сгенерированные изображения модели в основном были приняты для публикации на веб-сайте Expedia. У нас немного ниже MOS для изображений с меньшим разрешением, и после анализа ошибок мы выяснили, что это связано с большой пикселизацией / размытостью этих входных изображений.

На рисунке 5 показано распределение принятых (синий) и отклоненных изображений (оранжевый) в зависимости от их оценок PSNR и SSIM для первого набора тестов, приведенного выше (который состоит из изображений с разрешением 350–650 пикселей). Мы ясно видим, что ни PSNR (слева), ни SSIM (справа) не дают четкого сигнала о визуальном качестве изображения. Может показаться удивительным, что для PSNR выше 33 MOS недостаточно коррелирует с PSNR. Проведя некоторое исследование, мы заметили, что это связано с тем, что как входные, так и выходные изображения были размытыми в этом диапазоне PSNR / SSIM.

Заключение

В этой статье мы обсудили сквозную модель SISR и сделали несколько выводов. Во-первых, предварительно обученные модели не дают удовлетворительных результатов. Точно настроенная модель SISR с использованием изображений для конкретных областей дает результаты высочайшего качества. Во-вторых, мы нашли эффективный метод обучения модели со сверхвысоким разрешением на изображениях с входным разрешением 500 пикселей или более. Затем мы оценили этот метод на наших тестовых наборах данных. Сгенерированные выходные изображения (2000 пикселей или 4k) были приняты экспертами-оценщиками с высокой степенью уверенности. Наконец, PSNR и SSIM являются хорошими индикаторами для оценки моделей SISR, но мы считаем, что MOS является наиболее подходящей мерой для повышения вашей уверенности и создания убедительного экономического обоснования.

Более подробную информацию об этом проекте можно найти в пост-печати нашей статьи здесь: Эффективное сверхвысокое разрешение для крупномасштабных изображений с использованием Attentional GAN ​​, IEEE Big Data, 2018. (https: // arxiv.org/abs/1812.04821 ). Недавно эта работа была оценена эмпирически вместе с другими методами SOTA Super-resolution в этой статье⁶.

В этом блоге мы делимся некоторыми подробностями об этом проекте, а также стараемся предоставить краткое и интуитивно понятное руководство. Пожалуйста, смотрите Приложение для более подробной информации. У нас есть статья, опубликованная на конференции по большим данным IEEE. Пост-печать: https://arxiv.org/abs/1812.04821

Подтверждение

Эта работа была выполнена в сотрудничестве с несколькими командами Expedia, включая Data Science, Content, UGC и destination. Мы хотели бы поблагодарить Гленна Кроу за конструктивный отзыв об этом блоге. Также мы хотели бы поблагодарить Синьсин Ли, Шервин Минаи, Брук Коуэн, Томас Крук, Томас Малк, Питер Барщевски , Джесси Фармер, Гаятри Диван, Туфик Бдири, Этьен Би-Дьюри, и многим другим за множество ценных комментариев / предложений во время этого проекта. Наконец, мы благодарим Клиффа Деспо, Зака ​​Кунца и Майя Аскью за их постоянную поддержку этого проекта.

использованная литература

  1. Harsh et al. Эффективное сверхвысокое разрешение для крупномасштабных изображений с использованием Attentional GAN, IEEE Big Data, 2018 г. (https://arxiv.org/abs/1812.04821)
  2. Ледиг, Кристиан и др. «Фотореалистичное одиночное изображение со сверхвысоким разрешением с использованием генерирующей состязательной сети», CVPR. Vol. 2. №3. 2017 г.
  3. Чжан, Хан и др. «Сети противоборства, порождающие самовнимание». Препринт arXiv arXiv: 1805.08318, 2018.
  4. Миято Т., Катаока Т., Кояма М. и Йошида Ю. «Спектральная нормализация для порождающих состязательных сетей». Препринт arXiv arXiv: 1802.05957, 2018.
  5. Https://github.com/brade31919/SRGAN-tensorflow
  6. Чаовей Фанг, Гуаньбинь Ли, «Саморасширяющаяся сверточная сеть для лицевых видеогаллюцинаций», IEEE TRANSACTIONS ПО ОБРАБОТКЕ ИЗОБРАЖЕНИЙ

Первоначальное фото Брайс Эдвардс на Flickr.

Приложение A. Интуитивно понятные подробности построения моделей SR

В этом разделе мы пытаемся дать интуитивное объяснение 5–6-летних исследований сверхразрешения с использованием глубокого обучения. Недавняя эволюция суперразрешения в глубоком обучении показана ниже.

На следующих рисунках мы показываем сходство между разными моделями и то, как они улучшаются в последние годы.

Приложение Б. Распределенное обучение нашей модели

Благодаря недавним достижениям в области API-интерфейсов оценщиков распределение времени обучения между несколькими графическими процессорами стало очень простым. Здесь мы покажем, как мы распределили обучение без API оценщиков.