nocaps: масштабные титры новых объектов

Подписи к изображениям включают в себя задачу создания описаний визуального контента на естественном языке с использованием наборов данных, состоящих из пар изображение-подпись. Рисунок ниже наглядно демонстрирует задачу и наборы данных, используемые в этом типе работы, вместе с некоторыми примерами. Например, второе изображение слева показывает ребенка, сидящего на кушетке, о чем также можно судить по сопроводительной подписи к изображению, показанной в примере.

С левой стороны у нас есть примеры подписей к изображениям, полученные из COCO, который является очень популярным набором данных для подписей к объектам. nocaps (показан справа) - это эталонный набор данных, предложенный в этом документе и включающий три различных параметра: in-domain (только классы COCO) , ближний домен (COCO и новые классы) и вне домена (только новые классы). Эти настройки объясняются позже, а пока вам нужно беспокоиться только о том факте, что предлагаемый набор данных, nocaps, направлен на дополнение текущих наборов данных с субтитрами изображений, таких как COCO, а не на их полную замену.

Проблема с текущими моделями субтитров к изображениям заключается в том, что они плохо обобщаются на изображения в дикой природе. Это происходит потому, что большинство моделей обучены улавливать крошечное количество визуальных концепций по сравнению с тем, с чем человек может столкнуться в повседневной жизни. Возьмем, к примеру, набор данных COCO, обученные на нем модели могут описывать только изображения, содержащие собак и зонтики, но не дельфинов. Для создания более надежных реальных приложений, таких как помощник для людей с ослабленным зрением, необходимо устранить указанные выше ограничения. В частности, необходимо поддерживать крупномасштабные классы объектов, чтобы лучше обобщать задачу создания подписей к изображениям. Предлагаемая работа поддерживает более 500 новых классов, что является огромным улучшением по сравнению с 80 классами в COCO. Этот документ направлен на разработку моделей подписей к изображениям, которые изучают визуальные концепции из альтернативных источников данных, таких как наборы данных для обнаружения объектов. Одним из таких крупномасштабных наборов данных для обнаружения объектов является Open Images V4.

Набор обучающих данных для эталонного теста состоит из комбинации обучающих наборов COCO и Open Images V4. Имейте в виду, что никаких дополнительных пар изображение-подпись не предусмотрено, кроме тех, которые содержатся в COCO, поскольку обучающая часть Open Images V4 состоит только из изображений, помеченных ограничивающими рамками. Набор для проверки и тестирования состоит из изображений из набора данных обнаружения объектов Open Images. В целом, авторы предлагают тест с 10 ссылочными подписями на изображение и множеством других визуальных концепций, содержащихся в COCO. Кроме того, 600 классов включены через набор данных обнаружения объектов, что значительно больше, чем COCO, который содержит только 80 классов объектов. Каждое выбранное изображение было подписано 11 рабочими AMT через интерфейсы сбора подписей, как показано на рисунке ниже. Обратите внимание, что заправка относится к технике, при которой рабочим дается небольшое руководство (в данном случае метки), помогающее при аннотировании редких изображений.

Таким образом, по сравнению с заголовками COCO предлагаемый тест, nocaps, имеет большее визуальное разнообразие, больше классов объектов на изображение, а также более длинные и разнообразные заголовки (с большим словарным запасом). См. Документ для получения дополнительной информации о том, как готовятся как набор данных, так и эталонный тест.

Система эталонного тестирования использует парные данные COCO для изображений и подписей, чтобы научиться генерировать синтаксически правильные подписи, используя набор данных обнаружения объектов Open Images для изучения дополнительных визуальных концепций. По сути, набор данных COCO - это единственная информация о подписи к изображению, рассматриваемая для обучения, в то время как подписи из проверочного набора nocaps используются для проверки и тестирования наборов данных.

Одна из целей теста nocaps - повысить сложность задачи создания подписей к изображениям за счет увеличения разнообразия подписей и изображений. Однако авторы отмечают, что производительность, полученная с помощью автоматических метрик оценки, ниже, чем у человека. Но есть надежда улучшить интерпретацию результатов и получить больше информации.

Авторы предлагают исследовать два популярных метода субтитров объектов на своем тесте: Neural Baby Talk (NBT) и Up-Down, с ограниченным поиском луча (CBS) и без него. Модель Faster R-CNN обучается на представлениях функций изображения, извлеченных как из наборов данных Визуальный геном, так и из наборов данных Open Image. Напоминаем, что в COCO очень часто используются функции обнаружения объектов, обученные на Visual Genome, поскольку изображения получены из COCO. В частности, функции VG относятся к использованию только Visual Genome, а VGOI относится к комбинации наборов данных Visual Genome и Open Images. (Узнайте больше об экспериментальной установке из статьи).

Результаты экспериментов представлены в таблице выше. Мы можем заметить, что модель Up-Down, только с функциями VG (строка 1), работает лучше, чем при использовании VGOI, что, возможно, указывает на то, что классы в открытых изображениях могут быть намного более разреженными, что увеличивает сложность задачи. Результаты модели Neural Baby Talk (NBT) также могут быть ниже, чем модель Up-Down. Однако оба метода проигрывают модели «Человек», особенно для набора данных валидации nocaps. Вы можете найти более подробное обсуждение результатов в статье.

Наконец, ниже мы можем наблюдать несколько примеров изображений из nocaps с сгенерированными подписями, созданными для каждого типа модели.

Модель в домене (обученная только на COCO) не может идентифицировать новые объекты, такие как пистолет / винтовка и насекомое / многоножка, из-за нехватки визуальных концепций, как объяснялось ранее. Near-domain означает, что использовались оба класса объектов из COCO и Open Images. Вне домена означает, что классы COCO не использовались. Как для изображений ближнего домена, так и для изображений вне домена подписи несколько лучше, но все же нуждаются в улучшении. В целом, производительность эталонных моделей, в которых используется набор данных nocap, незначительно улучшается по сравнению с сильным базовым уровнем, но отстает по сравнению с исходным уровнем для человека, что означает, что еще есть возможности для улучшения задач создания подписей к изображениям.

Ссылка

Nocaps: новые титры объектов в масштабе - Харш Агравал, Каран Десаи, Синлей Чен, Ришаб Джайн, Дхрув Батра, Деви Парикх, Стефан Ли, Питер Андерсон