Отвечайте на вопросы о мировоззрении на 360 градусов

Визуальные ответы на вопросы (VQA) в последнее время привлекли к себе большое внимание во многих исследовательских сообществах. В этой задаче машина должна воспринимать окружающую среду визуально, понимать человеческие языки и выполнять мультимодальные рассуждения - все они являются важными компонентами для разработки современных1 систем искусственного интеллекта. За последние три года создано более двух десятков наборов данных.

Оглавление

  1. Вступление
  2. Наборы данных
  3. Модели VQA 3⁶⁰⁰
  4. Полученные результаты
  5. Заключение
  6. использованная литература

1. Введение

  • Все доступные наборы данных содержат изображения с типичным полем обзора (NFOV). Это не позволяет текущей архитектуре VQA работать с изображениями 360⁰.
  • Типичное поле зрения потребительской камеры может захватить только 18% ее части.
  • В отличие от стандартного изображения в поле обзора, изображение 360⁰ захватывает весь визуальный контент вокруг оптического центра камеры, что требует более сложного пространственного понимания и рассуждений. Таким образом, новая задача для изображений VQA 3⁶⁰⁰ представлена ​​в [1].

2. Набор данных

2.1 Сбор изображений

  • Авторы [1] получают первый набор данных для изображений VQA 360⁰. 360-градусные изображения внутренних сцен из двух общедоступных наборов данных, то есть Stanford 2D-3D и Matterport3D, используются для сбора соответствующих данных.
  • Оба набора данных предоставляют полезную дополнительную информацию, такую ​​как типы сцен и семантическая сегментация, что способствует генерации вопросов.
  • Есть около 23 различных сцен, включая общие зоны в домах (например, ванная, кухня, спальня и т. Д.) И рабочие места (например, офис, конференц-зал, аудитория и т. Д.).
  • Они отказываются от изображений с одной и той же комнатой, но с разными точками обзора для максимального разнообразия изображений.
  • Они выбирают около 744 изображений из набора данных Stanford 2D-3D, и 746 изображений выбираются из набора данных Matterport3D.

2.2 Формирование вопросов

  • Авторы разработали несколько шаблонов вопросов с семантической сегментацией и типами сцен для каждого изображения 360 ° для автоматической генерации вопросов.
  • Они используют пять различных типов шаблонов: «сцена», «существование», «подсчет», «свойство» и «пространственный». В наборе данных подготовлено около 11 вопросов для каждого изображения.

3. Модели VQA 360⁰

  • Авторы [1] представили две модели VQA, в том числе одну, посвященную решению неотъемлемых проблем в VQA 360⁰.

3.1 Равнопрямоугольные модели

Равнопрямоугольная проекция - это цилиндрическая эквидистантная проекция, также называемая прямоугольной проекцией, плоской диаграммой, пластиной или непроецированной картой, в которой горизонтальная координата - это долгота, а вертикальная координата - это широта.

Сеть билинейного внимания (BAN) находит билинейное распределение внимания, чтобы беспрепятственно использовать данную информацию на языке зрения. BAN рассматривает билинейные взаимодействия между двумя группами входных каналов, в то время как билинейное объединение низкого ранга извлекает совместные представления для каждой пары каналов.

Сети с накоплением внимания (SAN) используют семантическое представление вопроса в качестве запроса для поиска областей изображения, связанных с ответом.

  • Поскольку наиболее распространенным форматом для хранения и отображения изображения 360⁰ является равнопрямоугольная проекция в 2D-массив, мы действительно можем напрямую применять существующие (предварительно обученные) модели VQA для VQA 360⁰.
  • Использование Мультимодальной низкоранговой билинейной сети внимания (MLB) модель сделано для эффективного билинейного взаимодействия для мультимодальных представлений.
  • Сначала авторы работали над извлечением визуальных признаков с помощью предварительно обученного ResNet-152, а особенности вопросов извлекались с помощью Gated Recurrent Units (GRU).
  • Наконец, мультимодальные представления визуальных характеристик и вопросов создаются с использованием модели MLB.
  • Затем эти представления предоставляются в качестве входных данных для полностью связанного слоя с K выходными модулями для построения K-образного классификатора.
  • Принимаются различные стратегии, включая кадрирование или изменение размера исходных изображений 360⁰ или ввод исходного изображения при изменении размера выходных функций ResNet до пространственного разрешения 14 × 14 с помощью среднего слоя объединения. Это делается, поскольку предварительно обученная модель MLB требует на входе пространственного разрешения 14 × 14.

Подробные экспериментальные результаты см. В Разделе 5: Экспериментальные результаты ([1]).

3.1.1 Проблемы

  • Применение CNN непосредственно к изображениям с углом обзора 360 ° приводит к внутреннему пространственному искажению.
  • С другой стороны, использование специально разработанных сферических сверток не позволяет нам использовать существующие модели и предварительно обученные веса.
  • Более того, существующие модели VQA, такие как MLB и SAN, учитывают только одно визуальное разрешение при выполнении агрегирования функций в мультимодальных представлениях.
  • Для изображений 360⁰, охватывающих широкий пространственный диапазон, требуется более сложный механизм, включающий несколько разрешений агрегирования объектов.

3.2 Модели на основе кубической карты

  • Вышеупомянутые проблемы решаются путем предложения новой архитектуры. На следующем изображении представлена ​​общая модель, представленная в [1].
  • Во-первых, 360-градусное изображение представляется в виде шести неперекрывающихся кубических карт с помощью перспективной проекции. Каждая кубическая карта соответствует определенной части 360-градусного изображения с меньшими искажениями. На рисунке ниже показан пример представления кубической карты.

  • На первом этапе существующая модель VQA. Например, MLB применяется к каждой кубической карте индивидуально, и в результате получаются локальные мультимодальные представления каждой кубической карты.

3.2.1 Многоуровневое внимание снизу вверх

  • На втором этапе основная задача - эффективно агрегировать информацию из кубических карт. Хотя средние и максимальные пулы широко используются, они просто игнорируют местоположение, связанное с каждой кубической картой.
  • Вес внимания может быть вычислен в соответствии с информацией о каждой кубической карте, включая ее местоположение, что делает агрегирование более гибким.
  • Используется Tucker-Fusion для вычисления весов внимания в соответствии с многомодальными представлениями кубической карты, индикаторами местоположения и характеристиками вопросов.
  • Горячий вектор для индикатора местоположения используется для кодирования местоположения кубической карты.

3.2.2 Распространение внимания

  • Теперь используются полученные ранее веса внимания. Однако эти веса не учитывают явно пространственные отношения между кубическими картами.
  • Что касается вопроса типа «Есть ли стул с правой стороны окна?», Ожидается, что модель сначала обратится к кубической карте, содержащей окно, а затем переключит свое внимание на кубическую карту справа.
  • Чтобы включить такую ​​возможность, изучается матрица диффузии, обусловленная особенностями вопроса. Каждая запись в матрице диффузии содержит информацию о том, сколько внимания следует перенести с кубической карты v на u.
  • Мы получаем новые веса внимания после включения матрицы диффузии для прогнозов ответов.

Подробное математическое выражение см. В Разделе 4.2: Модели на основе кубической карты [1].

3.2.3 Предсказание ответа

  • Полученные в результате веса внимания помещаются в раздел Tucker-Fusion для извлечения взаимодействий изображения и вопроса более высокого уровня перед вводом в классификатор.

Для получения подробных экспериментальных результатов и установки см. Раздел 5: Экспериментальные результаты [1]. Подробные сведения о сборе данных и реализации см. В разделе 7: Дополнительные материалы к [1].

4. Результаты

5. Вывод

  • Внедрение VQA 360⁰, новой задачи VQA в сложной визуальной области, изображений 360⁰. Первый в истории набор данных VQA 360⁰ собран и опробован с несколькими моделями VQA.
  • Многоуровневая модель внимания для эффективного управления пространственным искажением (с помощью кубических карт) и выполнения сложных рассуждений представлена ​​в [1].
  • Экспериментальные результаты демонстрируют необходимость явного моделирования внутренних свойств изображений 360 °.
  • Для сравнения, заметный разрыв между производительностью людей и машин показывает сложность рассуждений на изображениях 360⁰ по сравнению с изображениями NFOV.

6. Ссылки

[1] Чоу, Ши-Хан и др. «Визуальный ответ на вопрос на изображениях 360 °». Зимняя конференция IEEE 2020 по приложениям компьютерного зрения (WACV). IEEE, 2020.

[2] Ким, Джин-Хва и др. «Продукт Адамара для билинейного объединения низкого ранга». Препринт arXiv arXiv: 1610.04325 (2016).

[3] Хе, Кайминг и др. «Глубокое остаточное обучение для распознавания изображений». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2016 г.

[4] Чунг, Джунён и др. «Эмпирическая оценка стробированных рекуррентных нейронных сетей при моделировании последовательности». Препринт arXiv arXiv: 1412.3555 (2014).