Превращение слов в изображения: билинейное представление для языкового редактирования изображений

Эта статья является частью серии Academic Alibaba и взята из статьи ICASSP 2019 под названием Билинейное представление для редактирования изображений на основе языка с использованием условных генеративных состязательных сетей, написанной Сяофэн Мао, Юефэн Чен, Юхун Ли, Тао Сюн, Юань Хэ и Хуэй Сюэ. Полностью статью можно прочитать здесь.

Часто говорят, что изображение стоит тысячи слов, но легко увидеть, как описание изображения может превысить эту сумму, если включить все, что имеет значение, от основных цветов и форм, из которых оно состоит, до люди, объекты и окружающая среда, которые он изображает, во всех смысловых слоях, которые он производит.

Поэтому может стать неожиданностью узнать, что в области языкового редактирования изображений (LBIE) исследователи обучают модели машинного обучения редактировать изображение на основе описания одним предложением того, как должно выглядеть новое изображение. :

LBIE — относительно новая область, но она уже начинает находить применение в области генерации моды, где система «перекрашивает» модель, используя описание нового наряда, а также в виртуальной реальности и автоматизированном проектировании (CAD). ). Однако существующие модели по-прежнему не могут точно представить функции высокого уровня. Это означает, что при работе с более сложными изображениями и правками система может, например, определить правильный цвет, но не определить часть изображения, на которой его следует использовать. В других случаях система может отвлекаться на сложный фон и выдавать бессмысленное изображение.

Теперь техническая команда Alibaba разработала улучшенный метод, основанный на том, что стало основным из существующих подходов. В частности, он улучшает модель условной генеративно-состязательной сети (cGAN), улучшая ее способность изучать подробные представления мультимодальных функций (то есть как функций изображения, так и функций текста).

От линейного к билинейному cGAN

Изучив существующую литературу по LBIE, команда Alibaba обнаружила два распространенных подхода:

1. Двухэтапная GAN. Этот подход делит LBIE на две подзадачи. Первый, сегментация изображения на основе языка, выводит карту сегментации в качестве промежуточного шага; второй, генерация изображения, выводит окончательное изображение.

2. Условный GAN (cGAN): подход cGAN редактирует изображение на основе объединенных визуальных и текстовых представлений с использованием одного из двух методов кондиционирования. Первый — конкатенация. Второй подход — это линейная модуляция по функциям (FiLM), которая стремится имитировать механизм человеческого внимания.

Выбрав подход cGAN, команда определила, что используемым в настоящее время методам кондиционирования не хватает репрезентативной силы. Это связано с тем, что они используют линейное преобразование, что означает, что они не могут изучить корреляцию второго порядка между двумя кондиционирующими вложениями. Они пришли к выводу, что естественным развитием условных моделей будет обобщение существующих линейных методов для создания более мощного билинейного подхода. Соответственно, они добавили в архитектуру сети билинейный остаточный уровень (BRL), который показан ниже.

Лакмусовая бумажка птиц, цветов и моды

Чтобы оценить производительность модели cGAN-with-BRL, команда проверила ее мастерство редактирования изображений на изображениях из трех наборов данных: набора данных о птицах Caltech-200, набора данных о цветах Oxford-102 и набора данных Fashion Synthesis.

Были использованы следующие правки:

· «Эта маленькая птичка в основном белая с черными надбровными и первичными бровями».

· «У этого цветка лепестки желтые по краям и пятнисто-оранжевые в центре».

· «На женщине была синяя блузка с короткими рукавами».

Как видно из рисунка выше, метод cGAN от Alibaba более точно вносил изменения в каждом случае. Эффекты легче всего наблюдать на изображениях цветов, где билинейная модель намного эффективнее определяет не только цвета для использования в новом изображении, но и точное место их использования.

В дополнение к качественному анализу, показанному выше, команда также провела количественный анализ с использованием начальных оценок (IS), который также показал, что изученное билинейное представление является более мощным, чем линейные подходы, и создает изображения более высокого качества.

Полностью статью можно прочитать здесь.

Алибаба Тех

Подробная информация о новейших технологиях Alibaba из первых рук → Facebook: Alibaba Tech». Твиттер: «AlibabaTech».

Превращение слов в изображения: билинейное представление для языкового редактирования изображений

От линейного к билинейному cGAN

Лакмусовая бумажка птиц, цветов и моды

Алибаба Тех

Вопросы по теме