ТРИ на CVPR 2023

Конференция IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR) — это главное ежегодное мероприятие по компьютерному зрению, включающее в себя основную конференцию и несколько совместных семинаров и кратких курсов. В этом году CVPR будет единым треком, чтобы все (с полной регистрацией паспорта) могли посещать все. Основное внимание будет уделено нескольким избранным пленарным докладам, научным дискуссиям на постерных сессиях и большому количеству времени для общения и общения.

В этом году Исследовательский институт Toyota (TRI) снова стал платиновым спонсором и представит новые результаты исследований и примет участие в ряде семинаров. Ознакомьтесь с основной конференцией и семинарами ниже, чтобы узнать, где будут присутствовать исследователи TRI. Мы с нетерпением ждем встречи с вами на выставке CVPR в этом году — вы можете найти нас на стенде 1130!

Примечание. Тезисы взяты из документов, и не все авторы являются сотрудниками TRI.

Мастерские

Синтетические данные для автономных систем (SDAS)

Дата: воскресенье, 18 июня 2023 г.

Расположение: Запад 302–305

Веб-сайт: https://sites.google.com/view/sdas2023/

Организаторы: Омар Махер (Parallel Domain), Алекс Зук (NVIDIA), Рарес Амбрус (TRI), Дэнксин Дай (MPI для информатики)

Адриан Гайдон, директор отдела машинного обучения в TRI, выступит с докладом на тему «Синтетические данные для воплощенных основ».

Автономное вождение, ориентированное на зрение

Дата: понедельник, 19 июня 2023 г.

Расположение: Запад 302–305.

Веб-сайт: http://vcad.site/

Организаторы: Юэ Ван (NVIDIA), Ханг Чжао (Университет Цинхуа), Витор Гуизилини (TRI), Кэти Дриггс-Кэмпбелл (Иллинойский университет), Синь Ван (Microsoft Research).

Документы семинара

Семинар: второй семинар по структурному и композиционному обучению 3D-данным.

Работа для семинара: ДОРОГА: изучение неявного рекурсивного автодекодера октодерева для эффективного кодирования 3D-фигур

Авторы: Сергей Захаров, Рарес Амбрус, Кэтрин Лю, Эдриан Гайдон

Подробности: воскресенье, 18 июня 2023 г., 11:40 — 12:30 по тихоокеанскому времени.

Выдержка. Компактное и точное представление трехмерных фигур играет центральную роль во многих задачах восприятия и робототехники. Современные методы, основанные на обучении, могут реконструировать отдельные объекты, но плохо масштабируются для больших наборов данных. Мы представляем новое рекурсивное неявное представление для эффективного и точного кодирования больших наборов данных сложных трехмерных форм путем рекурсивного обхода неявного октодерева в скрытом пространстве. Наш неявный рекурсивный автодекодер октодерева (ROAD) изучает иерархически структурированное скрытое пространство, что позволяет получать самые современные результаты реконструкции при степени сжатия выше 99%. Мы также предлагаем эффективную схему обучения по учебному плану, которая естественным образом использует свойства от грубого к точному базовому пространственному представлению октодерева. Мы исследуем закон масштабирования, связывающий размерность скрытого пространства, размер набора данных и точность реконструкции, показывая, что увеличения размерности скрытого пространства достаточно для масштабирования до больших наборов данных формы. Наконец, мы показываем, что наше изученное латентное пространство кодирует иерархическую структуру от грубой до точной, что дает многократно используемые латентные данные на разных уровнях детализации, и мы предоставляем качественные доказательства обобщения новых форм за пределами обучающей выборки.

Семинар: 3DMV: изучение 3D с многопрофильным контролем

Документ семинара: Сети глубины резкости для обобщенного многоракурсного представления сцены

Авторы: Витор Гуизилини*, Игорь Васильевич*, Цзядин Фан*, Рарес Амбрус, Грег Шахнарович, Мэтью Уолтер, Адриен Гайдон

Подробности: понедельник, 19 июня 2023 г., 9:35 – 10:30 по тихоокеанскому времени.

Аннотация. Современное трехмерное компьютерное зрение использует обучение для повышения геометрического мышления, сопоставления данных изображения с классическими структурами, такими как объемы затрат или эпиполярные ограничения, для улучшения сопоставления. Эти архитектуры специализированы в соответствии с конкретной проблемой и, следовательно, требуют значительной настройки для конкретной задачи, что часто приводит к низкой производительности обобщения предметной области. В последнее время универсальные архитектуры Transformer добились впечатляющих результатов в таких задачах, как оптический поток и оценка глубины, путем кодирования геометрических априорных значений в качестве входных данных, а не в качестве принудительных ограничений. В этой статье мы расширяем эту идею и предлагаем изучить неявное, согласованное представление сцены с несколькими видами, представляя ряд методов увеличения 3D-данных в качестве геометрической индуктивности до увеличения разнообразия видов. Мы также показываем, что введение синтеза представлений в качестве вспомогательной задачи еще больше улучшает оценку глубины. Наши сети глубины резкости (DeFiNe) обеспечивают самые современные результаты в оценке глубины стерео и видео без явных геометрических ограничений и значительно улучшают обобщение области нулевого выстрела.

Основная конференция

Документ: Эквивариантность точек обзора для обнаружения трехмерных объектов с несколькими представлениями

Авторы: Дайан Чен, Джи Ли, Витор Гуизилини, Рарес Амбрус, Адриен Гайдон

Подробности: среда, 21 июня 2023 г., 10:30 по тихоокеанскому времени.

Выдержка. Обнаружение 3D-объектов с помощью визуальных датчиков — это краеугольный камень роботизированных систем. Современные методы сосредоточены на осмыслении и декодировании ограничивающих рамок объекта на основе ввода с многоракурсной камеры. В этой работе мы интуитивно понимаем неотъемлемую роль многоракурсной согласованности в понимании 3D-сцены и геометрическом обучении. С этой целью мы представляем VEDet, новую структуру обнаружения 3D-объектов, которая использует трехмерную многоракурсную геометрию для улучшения локализации за счет осведомленности о точке обзора и эквивариантности. VEDet использует архитектуру преобразования на основе запросов и кодирует 3D-сцену, дополняя функции изображения позиционными кодировками из их 3D-перспективной геометрии. Мы разрабатываем запросы с условием представления на уровне вывода, что позволяет генерировать несколько виртуальных кадров во время обучения для изучения эквивалентности точек зрения путем обеспечения согласованности с несколькими представлениями. Многоракурсная геометрия, вводимая на входном уровне в виде позиционного кодирования и упорядоченная на уровне потерь, обеспечивает богатые геометрические подсказки для обнаружения 3D-объектов, что обеспечивает высочайшую производительность в тесте nuScenes. Код и модель доступны по адресу https://github.com/TRI-ML/VEDet.

Бумага: Манипуляции с несколькими объектами с помощью объектно-ориентированных функций нейронного рассеяния

Авторы: Стивен Тиан, Яньчэн Цай, Хун-Син Юй, Сергей Захаров, Кэтрин Лю, Адриан Гайдон, Юньчжу Ли, Цзяцзюнь Ву

Подробности: среда, 21 июня 2023 г., 10:30 по тихоокеанскому времени.

Аннотация: изученные модели визуальной динамики доказали свою эффективность в задачах манипулирования роботами. Тем не менее, остается неясным, как лучше представить сцены, связанные с взаимодействием нескольких объектов. Текущие методы разбивают сцену на отдельные объекты, но им сложно точно моделировать и манипулировать ими в сложных условиях освещения, поскольку они кодируют только внешний вид, связанный с определенным освещением. В этой работе мы предлагаем использовать объектно-ориентированные нейронные функции рассеяния (OSF) в качестве представлений объектов в рамках модельно-прогностического управления. OSF моделируют светопередачу для каждого объекта, обеспечивая повторную визуализацию композиционной сцены при перестановке объектов и различных условиях освещения. Комбинируя этот подход с обратной оценкой параметров и моделями нейронной динамики на основе графов, мы демонстрируем улучшенную производительность управления с прогнозированием моделей и обобщение в композиционных многообъектных средах, даже в ранее невиданных сценариях и жестких условиях освещения.

Документ: отслеживание контейнеров и окклюдеров в дикой природе

Авторы: Бэзил Ван Хурик, Павел Токмаков, Саймон Стент, Джи Ли, Карл Вондрик

Подробности: среда, 21 июня 2023 г., 16:30 по тихоокеанскому времени.

Аннотация. Постоянное отслеживание объектов в загроможденных и динамичных средах остается сложной задачей для систем компьютерного зрения. В этой статье мы представляем TCOW, новый эталон и модель для визуального отслеживания через тяжелую окклюзию и локализацию. Мы поставили задачу, цель которой состоит в том, чтобы, учитывая видеопоследовательность, сегментировать как спроецированный экстент целевого объекта, так и окружающий контейнер или окклюдер, когда он существует. Чтобы изучить эту задачу, мы создаем смесь синтетических и аннотированных реальных наборов данных, чтобы поддерживать как обучение с учителем, так и структурированную оценку производительности модели при различных формах изменения задачи, таких как перемещение или вложенное сдерживание. Мы оцениваем две недавние видеомодели на основе трансформеров и обнаруживаем, что, хотя они могут быть удивительно способны отслеживать цели при определенных настройках изменения задачи, остается значительный разрыв в производительности, прежде чем мы сможем утверждать, что модель отслеживания приобрела истинное представление о постоянстве объекта. .

Статья: Между прошлым и будущим: пространственно-временное моделирование для многокамерного трехмерного отслеживания нескольких объектов

Авторы: Цзыци Пан, Цзе Ли, Павел Токмаков, Дайан Чен, Сергей Загоруйко, Ю-Сюн Ван

Подробности: четверг, 22 июня 2023 г., 10:30 по тихоокеанскому времени.

Аннотация: в этой работе предлагается сквозная структура многокамерного трехмерного многообъектного отслеживания (MOT). Он подчеркивает пространственно-временную непрерывность и объединяет как прошлые, так и будущие рассуждения об отслеживаемых объектах. Таким образом, мы называем это Рассуждение о прошлом и будущем для отслеживания (PF-Track). В частности, наш метод использует структуру отслеживание по вниманию и когерентно представляет отслеживаемые экземпляры во времени с объектными запросами. Чтобы явным образом использовать исторические подсказки, наш модуль Рассуждения о прошлом учится уточнять дорожки и улучшать характеристики объекта, обращаясь к запросам из предыдущих кадров и других объектов. Модуль Рассуждения о будущем анализирует историческую информацию и прогнозирует надежные будущие траектории. В случае долгосрочных окклюзий наш метод сохраняет положение объекта и позволяет повторно ассоциировать его, интегрируя прогнозы движения. В наборе данных nuScenes наш метод значительно улучшает AMOTA и заметно снижает количество переключений ID на 90 % по сравнению с предыдущими подходами, что на порядок меньше. Код и модели доступны по адресу https://github.com/TRI-ML/PF-Track.

Документ: разделение «объекта» в сегментации видеообъектов

Авторы: Павел Токмаков, Джи Ли, Адриен Гайдон

Подробности: четверг, 22 июня 2023 г., 16:30 по тихоокеанскому времени.

Абстрактный. Внешний вид объекта может быть мимолетным, когда он трансформируется. Когда яйца разбиваются или бумага рвется, их цвет, форма и текстура могут резко измениться, практически ничего не сохранив от оригинала, кроме самой идентичности. Тем не менее, это важное явление в значительной степени отсутствует в существующих тестах сегментации видеообъектов (VOS). В этой работе мы устраняем пробел, собирая новый набор данных для сегментации видеообъектов при преобразованиях (VOST). Он состоит из более чем 700 видеороликов высокого разрешения, снятых в различных условиях, средней продолжительностью 21 секунду и плотно помеченных масками экземпляров. Принят тщательный многоэтапный подход, чтобы гарантировать, что эти видеоролики сосредоточены на сложных преобразованиях объектов, захватывая их полный временной охват. Затем мы тщательно оцениваем современные методы VOS и делаем ряд важных открытий. В частности, мы показываем, что существующие методы плохо подходят для решения этой новой задачи и что их основное ограничение заключается в чрезмерной зависимости от статичных признаков внешнего вида. Это побуждает нас предложить несколько модификаций наиболее эффективной базовой линии, которые улучшают ее возможности за счет лучшего моделирования пространственно-временной информации. Но в более широком смысле надежда состоит в том, чтобы стимулировать обсуждение изучения более надежных представлений видеообъектов.

Документ: Обнаружение объектов с помощью токенов, управляемых движением

Авторы: Жипэн Бао, Павел Токмаков, Ю-Сюн Ван, Адриан Гайдон, Марсьяль Хеберт

Подробности: четверг, 22 июня 2023 г., 16:30 по тихоокеанскому времени.

Аннотация. Обнаружение объектов — отделение объектов от фона без ручных меток — является фундаментальной открытой задачей в области компьютерного зрения. Предыдущие методы изо всех сил пытаются выйти за рамки кластеризации сигналов низкого уровня, независимо от того, созданы ли они вручную (например, цвет, текстура) или получены (например, от автокодировщиков). В этой работе мы дополняем структуру обучения представлению автокодировщика двумя ключевыми компонентами: управление движением и токенизация функций среднего уровня. Хотя оба они были исследованы отдельно, мы представляем новый декодер-трансформер, показывающий, что их преимущества могут суммироваться благодаря векторному квантованию с управлением движением. Мы показываем, что наша архитектура эффективно использует синергию между движением и токенизацией, улучшая современное состояние как синтетических, так и реальных наборов данных. Наш подход обеспечивает появление интерпретируемых объектно-специфических признаков среднего уровня, демонстрируя преимущества управления движением (без маркировки) и квантования (интерпретируемость, эффективность памяти).

Статья: CARTO: Категорийная и совместная агностическая реконструкция артикулированных объектов

Авторы: Ник Хепперт, Мухаммад Зубайр Иршад, Сергей Захаров, Кэтрин Лю, Рарес Андрей Амбрус, Жаннетт Бог, Абхинав Валада, Томас Коллар

Подробности: четверг, 22 июня 2023 г., 16:30 по тихоокеанскому времени.

Аннотация: мы представляем CARTO, новый подход к реконструкции нескольких сочлененных объектов из одного стереоскопического RGB-наблюдения. Мы используем неявные объектно-ориентированные представления и изучаем единый декодер геометрии и артикуляции для нескольких категорий объектов. Несмотря на обучение по нескольким категориям, наш декодер достигает точности реконструкции, сравнимой с методами, которые обучают специальные декодеры отдельно для каждой категории. В сочетании с нашим кодировщиком стереоизображения мы определяем 3D-форму, 6D-позу, размер, тип соединения и состояние соединения нескольких неизвестных объектов за один прямой проход. Наш метод обеспечивает абсолютное улучшение mAP 3D IOU50 на 20,4% для новых экземпляров по сравнению с двухэтапным конвейером. Вывод выполняется быстро и может работать на графическом процессоре NVIDIA TITAN XP с частотой 1 Гц для восьми или менее присутствующих объектов. Хотя CARTO обучается только на смоделированных данных, он переносится на экземпляры реальных объектов. Код и данные оценки доступны на http://carto.cs.uni-freiburg.de/.

Документы, спонсируемые TRI

Во время конференции также будут представлены следующие доклады, спонсируемые TRI:

HexPlane: быстрое представление динамических сцен. Анг Цао, Джастин Джонсон. Вторник, 20 июня 2023 г., 10:30 по тихоокеанскому времени.
Люди как лампочки: трехмерная реконструкция человека по тепловому отражению. Руоши Лю и Карл Вондрик. Среда, 21 июня 2023 г., 16:30 по тихоокеанскому времени.
Score Jacobian Chaining: подъем предварительно обученных 2D-моделей диффузии для 3D-генерации. Хаочен Ван, Сяодань Ду, Цзяхао Ли, Рэймонд А. Йе, Грег Шахнарович. Среда, 21 июня 2023 г., 16:30 по тихоокеанскому времени.
Обучение прогнозированию неявного 3D на уровне сцены на основе данных RGBD. Нилеш Кулкарни, Линьи Джин, Джастин Джонсон, Дэвид Ф. Фуи. Четверг, 22 июня 2023 г., 10:30 по тихоокеанскому времени.
Тест ObjectFolder: мультисенсорное объектно-ориентированное обучение с нейронными и реальными объектами. Руохан Гао, Имин Доу, Хао Ли, Танмай Агарвал, Жаннетт Бог, Юнжу Ли, Ли Фей-Фей, Цзяцзюнь Ву. Четверг, 22 июня 2023 г., 10:30 по тихоокеанскому времени.

ТРИ на CVPR 2023

Мастерские

Синтетические данные для автономных систем (SDAS)

Автономное вождение, ориентированное на зрение

Документы семинара

Основная конференция

Документ: Эквивариантность точек обзора для обнаружения трехмерных объектов с несколькими представлениями

Бумага: Манипуляции с несколькими объектами с помощью объектно-ориентированных функций нейронного рассеяния

Документ: отслеживание контейнеров и окклюдеров в дикой природе

Статья: Между прошлым и будущим: пространственно-временное моделирование для многокамерного трехмерного отслеживания нескольких объектов

Документ: разделение «объекта» в сегментации видеообъектов

Документ: Обнаружение объектов с помощью токенов, управляемых движением

Статья: CARTO: Категорийная и совместная агностическая реконструкция артикулированных объектов

Документы, спонсируемые TRI

Вопросы по теме