Преобразование изображения в изображение — это задача перевода изображения из определенного домена в другой домен с сохранением определенного семантического содержания. При переводе изображения в изображение в основном возникают две проблемы: изучение парных данных и непарных данных. Сбор парных наборов данных может быть проблематичным в реальных задачах, и алгоритмы обучения, основанные на непарных данных, таких как популярный CycleGAN, вызывают больший интерес.

Еще одним свойством перевода изображения в изображение является присущая задаче мультимодальность. Одно изображение можно преобразовать в несколько одинаково реалистичных изображений, как показано на рисунке выше. Исследования по переводу непарного мультимодального изображения в изображение, такие как эта статья, направлены на создание различных изображений из одного изображения в непарном наборе данных.

Эта бумага …

  • Использует представление контента из исходного домена в зависимости от представления стиля из целевого домена (конвейер MISO).
  • Предлагает взаимную информацию LOss (MILO) в качестве функции потерь.
  • Повышает производительность непарного мультимодального преобразования изображения в изображение до удивительного уровня.

Исходный документ: MISO: взаимная потеря информации со стохастическим представлением стиля для мультимодального преобразования изображения в изображение

Предыдущие подходы

Мы кратко обсудим идеи предыдущей работы по непарному мультимодальному переводу изображения в изображение. Этот раздел написан на основе документа MISO. Для более подробной информации обратитесь к каждому документу.

Мультимодальные сопоставления можно изучить, сопоставив пару (шум, исходное изображение) с целевым изображением. BicycleGAN предлагает двухэтапное обучение, которое переводит изображение и функции для мультимодального парного перевода. А именно, обучение состоит из перевода X → Z → X (изображение-признак-изображение, IFI) и Z → X → Z (признак-изображение-признак, FIF), каждая фаза обучается с различными функциями потерь.

Работа над непарным мультимодальным преобразованием изображения в изображение, таким как MUNIT и DRIT, расширяет двухэтапное обучение, разделяя стиль и содержание. А именно, доменно-инвариантные функции (контент), такие как фон, угол лица и специфичные для домена функции (стиль), такие как длинные волосы и бороды, которые отличают каждый домен. На этапе IFI обоих методов используется потеря самовосстановления, которая представляет собой потерю L1 между исходным и восстановленным изображением (аналогично потере согласованности цикла?).

Взаимная информация с представлением StOchastic Style (MISO)

StOchastic…?

Подводя итог, наша цель состоит в том, чтобы изучить отображение «один ко многим» из домена A в домен B или из исходного домена S в целевой домен T. Строго говоря, отображение «один ко многим» реализуется путем изучения p(t |s, z), где tT, sS и z ∼ N(0, I).

Конвейер состоит из двух кодировщиков стилей и дискриминаторов для каждого домена и двух генераторов и условных кодировщиков для каждого направления. На приведенном выше рисунке E_A и E_B представляют кодировщики стиля, E_BA и E_AB представляют собой условные кодировщики, D_A и D_B представляют дискриминаторы, а G_AB и G_BA представляют генераторы, каждый для домена, соответствующего их нижнему индексу.

Вектор z концептуально представляет желаемый стиль изображения, поскольку он напрямую влияет на мультимодальность отображения. Кодировщики стиля (не условные кодировщики) получают изображение либо из домена A, либо из домена B и предсказывают соответствующий вектор z. Чтобы избежать одиночных детерминированных отображений, кодировщики представляют собой VAE, которые утверждают шум в скрытом пространстве.

Суть в том, что стиль кодируется из изображений из исходного домена A, а контент кодируется из целевого домена B. Конвейер, по-видимому, похож на конвейер BicycleGAN.

Взаимная потеря информации (MILO)

Далее автор указывает, что потеря самореконструкции (SR), широко используемая в мультимодальном переводе, может быть проблематичной. Предыдущая работа предполагает, что потеря SR не может захватить детализированные функции, потому что потеря может стимулировать усреднение значений пикселей. Потеря MILO предлагается в качестве альтернативы потере SR.

Мультимодальный перевод направлен на изучение условного распределения p(t|s, z). Авторы рассматривают z как случайную величину с апостериорным значением p(z|x), x ∈ X. Это также придает случайность признакам, извлеченным условным кодировщиком. Концептуально MILO предназначен для лучшего использования этой случайности при измерении потерь.

Потеря MILO максимизирует взаимную информацию между объектом z_a=E_A(z) и изображением, сгенерированным из этого объекта G_BA(b, z_a). Взаимная информация аппроксимируется приведенным ниже уравнением на основе InfoGAN.

Это переписывается в виде приведенной ниже формулы после аппроксимации распределений на основе различных статистических свойств компонентов MISO. Приведенная ниже формула, обозначенная как L_info, может быть рассчитана напрямую, где µ_out и σ_out являются выходными данными кодера.

Полную информацию см. в оригинальной статье. Я признаю, что не смог интерпретировать весь процесс из-за большой математической нагрузки.

Полная целевая функция включает в себя комбинацию этой потери MISO, KL-дивергенции, потери согласованности цикла и враждебной потери. Эти потери такие же, как классические уравнения, которые мы обычно используем, и подробности о том, когда используется каждая потеря, описаны на рисунке, описывающем конвейер обучения. Обучение генератора выполняется с использованием приведенного ниже уравнения, которое вычисляет взвешенную сумму каждой потери.

Эксперименты

Метод оценивается на 4 непарных наборах данных перевода изображения в изображение: мужчина ↔ женщина, искусство ↔ фото, лето ↔ зима и кошка ↔ собака. MISO удалось превзойти другие непарные мультимодальные модели перевода по многим показателям.

MISO достигает наилучшей производительности при генерации изображений с учетом пола CelebA по сравнению с точностью классификации с другими мультимодальными и немультимодальными методами. Это говорит о том, что MISO создает изображения, которые успешно содержат особенности, специфичные для предметной области.

MISO был наиболее предпочтительным методом исследования пользователей и показателей восприятия (LPIPS) по сравнению с другими методами непарного перевода. Более низкий показатель LPIPS между I↔O означает, что содержимое сохраняется, а более высокий показатель LPIPS между O↔O означает, что выходные данные более разнообразны. Например, NycleGAN создает реалистичные, но не разнообразные изображения.

Результаты несколько очевидны, когда мы на самом деле сравниваем примеры. На рисунке ниже MISO генерирует изображения несравненного разнообразия и качества.

Более качественный анализ скрытого пространства и примеры сгенерированных изображений представлены в оригинальной статье.

Резюме

  • В этой статье предлагается улучшенный конвейер для непарного мультимодального преобразования изображения в изображение и улучшается качество восприятия в различных условиях.
  • В этой статье предлагается потеря информации MILO, основанная на рассмотрении z как случайной величины, которая заменяет проблематичную потерю самовосстановления.

Я узнал, что перевод изображения в изображение по своей сути является мультимодальной проблемой. Структура MISO, предложенная в этой статье, интересна тем, что моделирует абстрактную концепцию стиля и содержания.