Отвечайте на вопросы о мировоззрении на 360 градусов
Визуальные ответы на вопросы (VQA) в последнее время привлекли к себе большое внимание во многих исследовательских сообществах. В этой задаче машина должна воспринимать окружающую среду визуально, понимать человеческие языки и выполнять мультимодальные рассуждения - все они являются важными компонентами для разработки современных1 систем искусственного интеллекта. За последние три года создано более двух десятков наборов данных.
Оглавление
- Вступление
- Наборы данных
- Модели VQA 3⁶⁰⁰
- Полученные результаты
- Заключение
- использованная литература
1. Введение
- Все доступные наборы данных содержат изображения с типичным полем обзора (NFOV). Это не позволяет текущей архитектуре VQA работать с изображениями 360⁰.
- Типичное поле зрения потребительской камеры может захватить только 18% ее части.
- В отличие от стандартного изображения в поле обзора, изображение 360⁰ захватывает весь визуальный контент вокруг оптического центра камеры, что требует более сложного пространственного понимания и рассуждений. Таким образом, новая задача для изображений VQA 3⁶⁰⁰ представлена в [1].
2. Набор данных
2.1 Сбор изображений
- Авторы [1] получают первый набор данных для изображений VQA 360⁰. 360-градусные изображения внутренних сцен из двух общедоступных наборов данных, то есть Stanford 2D-3D и Matterport3D, используются для сбора соответствующих данных.
- Оба набора данных предоставляют полезную дополнительную информацию, такую как типы сцен и семантическая сегментация, что способствует генерации вопросов.
- Есть около 23 различных сцен, включая общие зоны в домах (например, ванная, кухня, спальня и т. Д.) И рабочие места (например, офис, конференц-зал, аудитория и т. Д.).
- Они отказываются от изображений с одной и той же комнатой, но с разными точками обзора для максимального разнообразия изображений.
- Они выбирают около 744 изображений из набора данных Stanford 2D-3D, и 746 изображений выбираются из набора данных Matterport3D.
2.2 Формирование вопросов
- Авторы разработали несколько шаблонов вопросов с семантической сегментацией и типами сцен для каждого изображения 360 ° для автоматической генерации вопросов.
- Они используют пять различных типов шаблонов: «сцена», «существование», «подсчет», «свойство» и «пространственный». В наборе данных подготовлено около 11 вопросов для каждого изображения.
3. Модели VQA 360⁰
- Авторы [1] представили две модели VQA, в том числе одну, посвященную решению неотъемлемых проблем в VQA 360⁰.
3.1 Равнопрямоугольные модели
Равнопрямоугольная проекция - это цилиндрическая эквидистантная проекция, также называемая прямоугольной проекцией, плоской диаграммой, пластиной или непроецированной картой, в которой горизонтальная координата - это долгота, а вертикальная координата - это широта.
Сеть билинейного внимания (BAN) находит билинейное распределение внимания, чтобы беспрепятственно использовать данную информацию на языке зрения. BAN рассматривает билинейные взаимодействия между двумя группами входных каналов, в то время как билинейное объединение низкого ранга извлекает совместные представления для каждой пары каналов.
Сети с накоплением внимания (SAN) используют семантическое представление вопроса в качестве запроса для поиска областей изображения, связанных с ответом.
- Поскольку наиболее распространенным форматом для хранения и отображения изображения 360⁰ является равнопрямоугольная проекция в 2D-массив, мы действительно можем напрямую применять существующие (предварительно обученные) модели VQA для VQA 360⁰.
- Использование Мультимодальной низкоранговой билинейной сети внимания (MLB) модель сделано для эффективного билинейного взаимодействия для мультимодальных представлений.
- Сначала авторы работали над извлечением визуальных признаков с помощью предварительно обученного ResNet-152, а особенности вопросов извлекались с помощью Gated Recurrent Units (GRU).
- Наконец, мультимодальные представления визуальных характеристик и вопросов создаются с использованием модели MLB.
- Затем эти представления предоставляются в качестве входных данных для полностью связанного слоя с K выходными модулями для построения K-образного классификатора.
- Принимаются различные стратегии, включая кадрирование или изменение размера исходных изображений 360⁰ или ввод исходного изображения при изменении размера выходных функций ResNet до пространственного разрешения 14 × 14 с помощью среднего слоя объединения. Это делается, поскольку предварительно обученная модель MLB требует на входе пространственного разрешения 14 × 14.
Подробные экспериментальные результаты см. В Разделе 5: Экспериментальные результаты ([1]).
3.1.1 Проблемы
- Применение CNN непосредственно к изображениям с углом обзора 360 ° приводит к внутреннему пространственному искажению.
- С другой стороны, использование специально разработанных сферических сверток не позволяет нам использовать существующие модели и предварительно обученные веса.
- Более того, существующие модели VQA, такие как MLB и SAN, учитывают только одно визуальное разрешение при выполнении агрегирования функций в мультимодальных представлениях.
- Для изображений 360⁰, охватывающих широкий пространственный диапазон, требуется более сложный механизм, включающий несколько разрешений агрегирования объектов.
3.2 Модели на основе кубической карты
- Вышеупомянутые проблемы решаются путем предложения новой архитектуры. На следующем изображении представлена общая модель, представленная в [1].
- Во-первых, 360-градусное изображение представляется в виде шести неперекрывающихся кубических карт с помощью перспективной проекции. Каждая кубическая карта соответствует определенной части 360-градусного изображения с меньшими искажениями. На рисунке ниже показан пример представления кубической карты.
- На первом этапе существующая модель VQA. Например, MLB применяется к каждой кубической карте индивидуально, и в результате получаются локальные мультимодальные представления каждой кубической карты.
3.2.1 Многоуровневое внимание снизу вверх
- На втором этапе основная задача - эффективно агрегировать информацию из кубических карт. Хотя средние и максимальные пулы широко используются, они просто игнорируют местоположение, связанное с каждой кубической картой.
- Вес внимания может быть вычислен в соответствии с информацией о каждой кубической карте, включая ее местоположение, что делает агрегирование более гибким.
- Используется Tucker-Fusion для вычисления весов внимания в соответствии с многомодальными представлениями кубической карты, индикаторами местоположения и характеристиками вопросов.
- Горячий вектор для индикатора местоположения используется для кодирования местоположения кубической карты.
3.2.2 Распространение внимания
- Теперь используются полученные ранее веса внимания. Однако эти веса не учитывают явно пространственные отношения между кубическими картами.
- Что касается вопроса типа «Есть ли стул с правой стороны окна?», Ожидается, что модель сначала обратится к кубической карте, содержащей окно, а затем переключит свое внимание на кубическую карту справа.
- Чтобы включить такую возможность, изучается матрица диффузии, обусловленная особенностями вопроса. Каждая запись в матрице диффузии содержит информацию о том, сколько внимания следует перенести с кубической карты v на u.
- Мы получаем новые веса внимания после включения матрицы диффузии для прогнозов ответов.
Подробное математическое выражение см. В Разделе 4.2: Модели на основе кубической карты [1].
3.2.3 Предсказание ответа
- Полученные в результате веса внимания помещаются в раздел Tucker-Fusion для извлечения взаимодействий изображения и вопроса более высокого уровня перед вводом в классификатор.
Для получения подробных экспериментальных результатов и установки см. Раздел 5: Экспериментальные результаты [1]. Подробные сведения о сборе данных и реализации см. В разделе 7: Дополнительные материалы к [1].
4. Результаты
5. Вывод
- Внедрение VQA 360⁰, новой задачи VQA в сложной визуальной области, изображений 360⁰. Первый в истории набор данных VQA 360⁰ собран и опробован с несколькими моделями VQA.
- Многоуровневая модель внимания для эффективного управления пространственным искажением (с помощью кубических карт) и выполнения сложных рассуждений представлена в [1].
- Экспериментальные результаты демонстрируют необходимость явного моделирования внутренних свойств изображений 360 °.
- Для сравнения, заметный разрыв между производительностью людей и машин показывает сложность рассуждений на изображениях 360⁰ по сравнению с изображениями NFOV.
6. Ссылки
[1] Чоу, Ши-Хан и др. «Визуальный ответ на вопрос на изображениях 360 °». Зимняя конференция IEEE 2020 по приложениям компьютерного зрения (WACV). IEEE, 2020.
[2] Ким, Джин-Хва и др. «Продукт Адамара для билинейного объединения низкого ранга». Препринт arXiv arXiv: 1610.04325 (2016).
[3] Хе, Кайминг и др. «Глубокое остаточное обучение для распознавания изображений». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2016 г.
[4] Чунг, Джунён и др. «Эмпирическая оценка стробированных рекуррентных нейронных сетей при моделировании последовательности». Препринт arXiv arXiv: 1412.3555 (2014).