1. На пути к лучшей согласованности текста и изображения при преобразовании текста в изображение(arXiv)

Автор:Чжаоруй Тан, Зихан Е, Си Ян, Цюфэн Ван, Юяо Ян, Кайчжу Хуан

Аннотация. Создание согласованных и высококачественных изображений из заданных текстов имеет важное значение для понимания визуального языка. Хотя были достигнуты впечатляющие результаты в создании высококачественных изображений, согласованность текста и изображения по-прежнему является серьезной проблемой в существующих методах на основе GAN. В частности, самая популярная метрика R-точность может неточно отражать согласованность текста и изображения, что часто приводит к вводящей в заблуждение семантике в сгенерированных изображениях. Несмотря на свою важность, как разработать лучшую метрику согласованности текста и изображения, на удивление, сообщество остается недостаточно изученным. В этой статье мы делаем еще один шаг вперед к разработке новой метрики на основе CLIP, называемой расстоянием семантического подобия (SSD), которая теоретически основана с точки зрения распределения и эмпирически проверена на эталонных наборах данных. Используя предложенную метрику, мы дополнительно разрабатываем параллельные генеративно-состязательные сети глубокого слияния (PDF-GAN), которые могут объединять семантическую информацию с разной степенью детализации и фиксировать точную семантику. Предлагаемый PDF-GAN, оснащенный двумя новыми компонентами plug-and-play: Hard-Negative Sentence Constructor и Semantic Projection, может смягчить противоречивую семантику и преодолеть семантический разрыв между текстом и изображением. Серия экспериментов показывает, что, в отличие от современных современных методов, наш PDF-GAN может обеспечить значительно лучшую согласованность текста и изображения при сохранении достойного качества изображения в наборах данных CUB и COCO.

2.Насколько хорошо модели преобразования текста в изображение могут понимать этические вмешательства на естественном языке?(arXiv)

Автор: Ритик Бансал, Да Инь, Масуд Монаджатипур, Кай-Вей Чанг

Аннотация .Генерационные модели ext-to-image добились беспрецедентного успеха в создании высококачественных изображений на основе описаний на естественном языке. Однако показано, что эти модели, как правило, отдают предпочтение определенным социальным группам, когда к ним добавляются нейтральные текстовые описания (например, фотография юриста). Вслед за Чжао и соавт. (2021), мы изучаем влияние на разнообразие сгенерированных изображений при добавлении этического вмешательства, которое поддерживает справедливое суждение (например, могут ли все люди быть юристами, независимо от их пола) в подсказках ввода. С этой целью мы представляем набор эталонных данных Ethical Natural Language Interventions in Text-to-Image GENeration (ENTIGEN) для оценки изменений в поколениях изображений, зависящих от этических вмешательств по трем социальным осям — полу, цвету кожи и культуре. Благодаря структуре ENTIGEN мы обнаружили, что поколения minDALL.E, DALL.E-mini и Stable Diffusion охватывают различные социальные группы, сохраняя при этом качество изображения. Предварительные исследования показывают, что большие изменения в прогнозах модели вызваны определенными фразами, такими как независимо от пола в контексте гендерной предвзятости в этических вмешательствах. Мы публикуем код и аннотированные данные на https://github.com/Hritikbansal/entigen_emnlp.

3.Lafite2: преобразование текста в изображение за несколько шагов(arXiv)

Автор:Юфань Чжоу, Чуньюань Ли, Чанью Чен, Цзяньфэн Гао, Цзинхуэй Сюй

Аннотация . За последние годы модели генерации текста в изображение значительно продвинулись вперед, и теперь они могут создавать впечатляющие реалистичные изображения из произвольного текста. Большинство таких моделей обучаются на парных наборах данных изображения и текста веб-масштаба, что может быть не по карману многим исследователям. В этой статье мы предлагаем новый метод предварительного обучения модели генерации текста в изображение на наборах данных, содержащих только изображения. Он рассматривает процедуру поиска, а затем оптимизации для синтеза псевдотекстовых функций: для данного изображения сначала извлекаются соответствующие псевдотекстовые функции, а затем оптимизируются для лучшего выравнивания. Низкие требования к предлагаемому методу обеспечивают высокую гибкость и удобство использования: он может быть полезен для широкого спектра условий, включая обучение с несколькими выстрелами, частично и полностью контролируемое обучение; его можно применять к различным моделям, включая генеративно-состязательные сети (GAN) и модели распространения. Обширные эксперименты иллюстрируют эффективность предлагаемого метода. В наборе данных MS-COCO наша модель GAN получает начальное расстояние Фреше (FID) 6,78, что является новым современным (SoTA) GAN при полностью контролируемой настройке. Наша диффузионная модель получает FID 8,42 и 4,28 при нулевой и контролируемой настройке соответственно, что конкурентоспособно с диффузионными моделями SoTA с гораздо меньшим размером модели.