Новая система визуальных ответов на вопросы на изображениях 360⁰

Отвечайте на вопросы о мировоззрении на 360 градусов

Визуальные ответы на вопросы (VQA) в последнее время привлекли к себе большое внимание во многих исследовательских сообществах. В этой задаче машина должна воспринимать окружающую среду визуально, понимать человеческие языки и выполнять мультимодальные рассуждения - все они являются важными компонентами для разработки современных1 систем искусственного интеллекта. За последние три года создано более двух десятков наборов данных.

1. Введение

Все доступные наборы данных содержат изображения с типичным полем обзора (NFOV). Это не позволяет текущей архитектуре VQA работать с изображениями 360⁰.
Типичное поле зрения потребительской камеры может захватить только 18% ее части.
В отличие от стандартного изображения в поле обзора, изображение 360⁰ захватывает весь визуальный контент вокруг оптического центра камеры, что требует более сложного пространственного понимания и рассуждений. Таким образом, новая задача для изображений VQA 3⁶⁰⁰ представлена в [1].

2. Набор данных

2.1 Сбор изображений

Авторы [1] получают первый набор данных для изображений VQA 360⁰. 360-градусные изображения внутренних сцен из двух общедоступных наборов данных, то есть Stanford 2D-3D и Matterport3D, используются для сбора соответствующих данных.
Оба набора данных предоставляют полезную дополнительную информацию, такую как типы сцен и семантическая сегментация, что способствует генерации вопросов.
Есть около 23 различных сцен, включая общие зоны в домах (например, ванная, кухня, спальня и т. Д.) И рабочие места (например, офис, конференц-зал, аудитория и т. Д.).
Они отказываются от изображений с одной и той же комнатой, но с разными точками обзора для максимального разнообразия изображений.
Они выбирают около 744 изображений из набора данных Stanford 2D-3D, и 746 изображений выбираются из набора данных Matterport3D.

2.2 Формирование вопросов

Авторы разработали несколько шаблонов вопросов с семантической сегментацией и типами сцен для каждого изображения 360 ° для автоматической генерации вопросов.
Они используют пять различных типов шаблонов: «сцена», «существование», «подсчет», «свойство» и «пространственный». В наборе данных подготовлено около 11 вопросов для каждого изображения.

3. Модели VQA 360⁰

Авторы [1] представили две модели VQA, в том числе одну, посвященную решению неотъемлемых проблем в VQA 360⁰.

3.1 Равнопрямоугольные модели

Равнопрямоугольная проекция - это цилиндрическая эквидистантная проекция, также называемая прямоугольной проекцией, плоской диаграммой, пластиной или непроецированной картой, в которой горизонтальная координата - это долгота, а вертикальная координата - это широта.

Сеть билинейного внимания (BAN) находит билинейное распределение внимания, чтобы беспрепятственно использовать данную информацию на языке зрения. BAN рассматривает билинейные взаимодействия между двумя группами входных каналов, в то время как билинейное объединение низкого ранга извлекает совместные представления для каждой пары каналов.

Сети с накоплением внимания (SAN) используют семантическое представление вопроса в качестве запроса для поиска областей изображения, связанных с ответом.

Поскольку наиболее распространенным форматом для хранения и отображения изображения 360⁰ является равнопрямоугольная проекция в 2D-массив, мы действительно можем напрямую применять существующие (предварительно обученные) модели VQA для VQA 360⁰.
Использование Мультимодальной низкоранговой билинейной сети внимания (MLB) модель сделано для эффективного билинейного взаимодействия для мультимодальных представлений.
Сначала авторы работали над извлечением визуальных признаков с помощью предварительно обученного ResNet-152, а особенности вопросов извлекались с помощью Gated Recurrent Units (GRU).
Наконец, мультимодальные представления визуальных характеристик и вопросов создаются с использованием модели MLB.
Затем эти представления предоставляются в качестве входных данных для полностью связанного слоя с K выходными модулями для построения K-образного классификатора.
Принимаются различные стратегии, включая кадрирование или изменение размера исходных изображений 360⁰ или ввод исходного изображения при изменении размера выходных функций ResNet до пространственного разрешения 14 × 14 с помощью среднего слоя объединения. Это делается, поскольку предварительно обученная модель MLB требует на входе пространственного разрешения 14 × 14.

Подробные экспериментальные результаты см. В Разделе 5: Экспериментальные результаты ([1]).

3.1.1 Проблемы

Применение CNN непосредственно к изображениям с углом обзора 360 ° приводит к внутреннему пространственному искажению.
С другой стороны, использование специально разработанных сферических сверток не позволяет нам использовать существующие модели и предварительно обученные веса.
Более того, существующие модели VQA, такие как MLB и SAN, учитывают только одно визуальное разрешение при выполнении агрегирования функций в мультимодальных представлениях.
Для изображений 360⁰, охватывающих широкий пространственный диапазон, требуется более сложный механизм, включающий несколько разрешений агрегирования объектов.

3.2 Модели на основе кубической карты

Вышеупомянутые проблемы решаются путем предложения новой архитектуры. На следующем изображении представлена общая модель, представленная в [1].
Во-первых, 360-градусное изображение представляется в виде шести неперекрывающихся кубических карт с помощью перспективной проекции. Каждая кубическая карта соответствует определенной части 360-градусного изображения с меньшими искажениями. На рисунке ниже показан пример представления кубической карты.

На первом этапе существующая модель VQA. Например, MLB применяется к каждой кубической карте индивидуально, и в результате получаются локальные мультимодальные представления каждой кубической карты.

3.2.1 Многоуровневое внимание снизу вверх

На втором этапе основная задача - эффективно агрегировать информацию из кубических карт. Хотя средние и максимальные пулы широко используются, они просто игнорируют местоположение, связанное с каждой кубической картой.
Вес внимания может быть вычислен в соответствии с информацией о каждой кубической карте, включая ее местоположение, что делает агрегирование более гибким.
Используется Tucker-Fusion для вычисления весов внимания в соответствии с многомодальными представлениями кубической карты, индикаторами местоположения и характеристиками вопросов.
Горячий вектор для индикатора местоположения используется для кодирования местоположения кубической карты.

3.2.2 Распространение внимания

Теперь используются полученные ранее веса внимания. Однако эти веса не учитывают явно пространственные отношения между кубическими картами.
Что касается вопроса типа «Есть ли стул с правой стороны окна?», Ожидается, что модель сначала обратится к кубической карте, содержащей окно, а затем переключит свое внимание на кубическую карту справа.
Чтобы включить такую возможность, изучается матрица диффузии, обусловленная особенностями вопроса. Каждая запись в матрице диффузии содержит информацию о том, сколько внимания следует перенести с кубической карты v на u.
Мы получаем новые веса внимания после включения матрицы диффузии для прогнозов ответов.

Подробное математическое выражение см. В Разделе 4.2: Модели на основе кубической карты [1].

3.2.3 Предсказание ответа

Полученные в результате веса внимания помещаются в раздел Tucker-Fusion для извлечения взаимодействий изображения и вопроса более высокого уровня перед вводом в классификатор.

Для получения подробных экспериментальных результатов и установки см. Раздел 5: Экспериментальные результаты [1]. Подробные сведения о сборе данных и реализации см. В разделе 7: Дополнительные материалы к [1].

4. Результаты

5. Вывод

Внедрение VQA 360⁰, новой задачи VQA в сложной визуальной области, изображений 360⁰. Первый в истории набор данных VQA 360⁰ собран и опробован с несколькими моделями VQA.
Многоуровневая модель внимания для эффективного управления пространственным искажением (с помощью кубических карт) и выполнения сложных рассуждений представлена в [1].
Экспериментальные результаты демонстрируют необходимость явного моделирования внутренних свойств изображений 360 °.
Для сравнения, заметный разрыв между производительностью людей и машин показывает сложность рассуждений на изображениях 360⁰ по сравнению с изображениями NFOV.

6. Ссылки

[1] Чоу, Ши-Хан и др. «Визуальный ответ на вопрос на изображениях 360 °». Зимняя конференция IEEE 2020 по приложениям компьютерного зрения (WACV). IEEE, 2020.

[2] Ким, Джин-Хва и др. «Продукт Адамара для билинейного объединения низкого ранга». Препринт arXiv arXiv: 1610.04325 (2016).

[3] Хе, Кайминг и др. «Глубокое остаточное обучение для распознавания изображений». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2016 г.

[4] Чунг, Джунён и др. «Эмпирическая оценка стробированных рекуррентных нейронных сетей при моделировании последовательности». Препринт arXiv arXiv: 1412.3555 (2014).