Визуальный ответ на вопрос (VQA) с различными комбинациями функций

Расширения визуального ответа на вопрос

В настоящее время моя работа связана с языковым моделированием, сегментацией и декомпозицией с использованием НЛП. Учитывая важную роль семантики и значения в понимании языка, я хотел вернуться к некоторым предыдущим работам в этой области, особенно к такой интересной, как визуальный ответ на вопрос (VQA), который сочетает в себе компьютерное зрение, понимание естественного языка и глубокое обучение. В этой статье представлен обзор модели VQA и ее расширений. Для более подробного ознакомления с реализацией и результатами, пожалуйста, обратитесь к статье здесь и к коду здесь. Команда VQA также поддерживает исчерпывающий источник информации, ресурсов и программного обеспечения, включая последние доклады и статьи.

Среди различных проблем искусственного интеллекта (ИИ) создание субтитров к изображениям / видео, которое представляет собой комбинацию компьютерного зрения, обработки естественного языка и представления и рассуждения знаний, было решено множеством исследовательских групп. Однако по-прежнему существует значительный разрыв в качестве оценки изображений по сравнению с людьми. VQA возникла как интересная область, которая находится на пересечении некоторых из этих проблемных областей. Для данного изображения алгоритм визуального ответа на вопрос помогает машине отвечать на вопросы произвольной формы, открытые на естественном языке, об изображении. Это достигается путем измерения сходства в семантическом пространстве между двумя модальностями (текстом и изображением) на основе Глубокой мультимодальной модели сходства (DMSM) [1] от Microsoft. В то время как базовая модель VQA сама по себе имеет ряд потенциальных вариантов использования в реальном мире, таких как автоматическая маркировка больших наборов изображений, системы поиска изображений, интеграция в обширные социальные сети и базы данных электронной коммерции, в качестве аспирантов в лаборатории технического зрения в Технологическом институте Вирджинии. , Jinwoo Choi и я также хотели поэкспериментировать с расширением базовой модели VQA [2] на другие комбинации входных данных.

Для выполнения любых задач VQA мы измеряем сходство между модальностями ввода (изображение и предложение) или (изображение + предложение и предложение). DMSM помогает нам сопоставить входные векторы с общим семантическим пространством и измерить косинусное сходство между векторами внедрения. DMSM - это мультимодальное расширение унимодальной глубокой структурированной семантической модели (DSSM), которая измеряет сходство между текстовыми запросами и документами, а также использует пару нейронных сетей, подобных DSSM.

Базовая модель VQA использует функции, которые извлекаются из изображений и объединяются с функциями вопросов для создания функций (изображение + вопрос). Затем они передаются через одну сеть в DMSM, а функции ответов передаются через другую сеть для обучения модели.

Прогноз в DMSM возвращает баллы косинусного сходства между входом 1 (функция изображения + вопрос) и входом 2 (возможности ответа-кандидата) в диапазоне от -1 до 1. В нашем наборе данных было 18 вариантов выбора для каждого вопроса, из которых был получен максимальный результат. выбрано. Для этого мы ранжируем оценки в порядке убывания и выбираем из топ-K наиболее похожих результатов.

Набор данных, использованный в этой работе, был оригинальным набором данных VQA [2]. Во время разработки нашей модели этот набор данных содержал 82 783 обучающих изображения и 40 504 проверочных изображения из набора данных Microsoft COCO [3]. Кроме того, набор данных VQA содержит примерно 3 пары основных вопросов-ответов на каждое обучающее / проверочное изображение. Набор данных VQA обеспечивает два способа ответа на вопросы: (1) открытый ответ и (2) множественный выбор. В этой работе для модели VQA использовались только ответы с несколькими вариантами ответов. Пожалуйста, обратите внимание, что новые наборы данных были выпущены командой VQA, поэтому обязательно ознакомьтесь с ними, прежде чем начинать разработку своих собственных моделей.

Сводка реализации

Мы использовали обучающие изображения и соответствующие обучающие вопросы и ответы для обучения наших моделей. Мы использовали проверочные изображения и соответствующие проверочные вопросы и ответы, чтобы получить прогнозы и рассчитать точность.

Сначала мы генерируем наборы функций требуемой комбинации, выравниваем их и объединяем, чтобы получить разреженное векторное представление.
Caffe использовался для извлечения функций изображения, которые являются активациями из VGGNET, а для функций вопросов и ответов используются краткие представления векторов подсчета букв триграмм.
Загрузите обе функции для обучения DMSM и обновления весовых матриц.

Использование Torch было медленным, занимало ~ 2–3 часа на каждую эпоху, поэтому в нашей реализации использовался эталонный код DMSM C #, который занимал ~ 70–100 минут на каждую эпоху. Таким образом, для 100 эпох нам требовалось примерно 5–7 дней на обучение модели.

Чтобы проверить, мы измерили сходство между двумя входами по косинусному сходству между их векторами внедрения. Например, мы вычислили вложения для данного изображения и использовали многомодальный показатель сходства косинусов, чтобы найти ближайшее вложение вопрос + ответ для изображения. Это демонстрирует способность узнать, какие вопросы можно задать об изображении, и возможность получить ответы на автоматически сгенерированные вопросы.

Результаты

Эксперименты показали многообещающие результаты для моделей расширения VQA. Некоторые примеры результатов исходной модели VQA показаны на рисунке 3.

Примеры результатов поиска пары QA показаны на рисунке 4. По изображению запроса машина извлекает соответствующие пары QA и повторно ранжирует пары в соответствии с оценками сходства в порядке убывания. Несмотря на то, что рейтинг правильного ответа не очень высок, полученные ответы соответствуют изображению запроса. В первом примере все 3 пары QA, занявших первые места, содержат «таблицу» и «фрукт», которые содержатся в изображении запроса. В третьем примере две из трех пар QA, занявших первое место, содержат слово «кошка», в то время как другой ошибочно классифицирует кошку на изображении как собаку.

Примеры результатов поиска изображений показаны на рисунке 5. При наличии пары запроса QA машина извлекает соответствующие изображения и повторно ранжирует изображения в соответствии с оценками сходства. Подобно результатам поиска QA, три найденных изображения наиболее релевантны для пары QA запроса. Например, во втором ряду на рис. 5 есть пара «Слоны плывут» и «нет» в качестве пары QA. На всех трех найденных изображениях есть слоны, которые не плавают. В третьей строке на рис. 5 указаны «Где этот человек готовит еду» и «духовка» в качестве пары по обеспечению качества. Все 3 найденных изображения содержат сцены приготовления пищи. И в двух из них есть духовка.

Результаты примера модели риска показаны на рисунке 6. Получив изображение и ответ, машина пытается найти вопрос. Эта модель также разумно возвращает соответствующие вопросы. В первом примере изображение запроса - это изображение туалета, а ответ на запрос - «плитка». Все три найденных вопроса содержат «пол» или «потолок». В третьем примере изображение запроса содержит сцену о том, как мужчина катается на скейтборде, и ответ - «скейтбординг». Все три найденных вопроса имеют форму «Что кто-то делает». Но главный вопрос - «что делает пожарный», что определенно неверно. Это из-за размытой части изображения. Размытие света могло внести путаницу в модуль извлечения деталей изображения.

Заключение

Расширения VQA помогают исследовать новые потенциальные приложения, такие как универсальное распознавание объектов, целостное понимание сцены, повествование информации и историй из изображений или разработка интерактивных образовательных приложений, которые задают вопросы об изображениях. И хотя текущие прогнозы неэффективны по сравнению с человеческими решениями, новые большие наборы данных и их внедрение на большем количестве платформ и устройств позволят компьютерам гораздо более интуитивно понимать данные и изменить способ поиска и взаимодействия с данными. В рамках этого исследования следующим интересным шагом будет применение трансферного обучения к трем моделям расширения с использованием весов исходной модели VQA. Трансферное обучение может сократить время обучения трех дополнительных моделей и повысить точность модели.

использованная литература

[1] Фанг, Хао, Гупта, Саураб, Иандола, Форрест, Шривастава, Рупеш К., Дэн, Ли, Доллар, Петр, Гао, Цзяньфэн, Хе, Сяодун, Митчелл, Маргарет, Платт, Джон К., Лоуренс Зитник, К. и Цвейг, Джеффри. От подписей до визуальных концепций и обратно. На конференции IEEE по компьютерному зрению и распознаванию образов (CVPR), июнь 2015 г.

[2] Антол, Станислав, Агравал, Айшвария, Лу, Джасен, Митчелл, Маргарет, Батра, Дхрув, Зитник, К. Лоуренс и Парих, Деви. Vqa: Визуальный ответ на вопрос. На Международной конференции по компьютерному зрению (ICCV), 2015 г.

[3] Чен, Синлей, Фанг, Хао, Линь, Цунг-И, Ведантам, Рамакришна, Гупта, Саураб, Доллар, Петр и Зитник, К. Лоуренс. Microsoft coco captions: Сервер сбора и оценки данных. Препринт arXiv arXiv: 1504.00325, 2015.

[4] Симонян К., Зиссерман А. Очень глубокие сверточные сети для распознавания крупномасштабных изображений. CoRR, абс. / 1409.1556, 2014.