Как Facebook использует свой фреймворк PyTorch для трехмерных целей

Конференция по компьютерному зрению и распознаванию образов (CVPR) - одна из первоклассных конференций, посвященных последним достижениям и тенденциям в области компьютерного зрения и распознавания образов. Он проводится ежегодно и включает качественные доклады независимых исследователей о достижениях научно-исследовательских лабораторий крупных компаний. В связи с пандемией, вызванной COVID-19 в этом году, организаторы решили провести CVPR 2020 виртуально, с 14 по 19 июня. Каким бы отличием это ни было, виртуальный аспект ни в коем случае не снизил качество статей и исследований, представленных на конференции.

На конференции CVPR в этом году исследователям Facebook AI удалось раздвинуть границы современных моделей во многих важных и относительно новых областях компьютерного зрения, в первую очередь среди них - новые способы рассуждений о 3D-объекты отображаются в виде обычных 2D-изображений. Используя многочисленные функции PyTorch 3D, фреймворка машинного обучения с открытым исходным кодом от FAIR, эта работа может помочь разблокировать многочисленные дополнения AR / VR и сыграть ключевую роль в формировании других технологий в ближайшем будущем.

Различные ракурсы только с одного изображения в сложных реальных сценах

Исследователи из Facebook AI and Research (FAIR) создали SynSin, современную модель, которая берет одно изображение RGB и генерирует новое изображение той же сцены с совершенно другой точки зрения. Предлагаемая система работает, проецируя предсказанное облако точек 3D на другой вид сцены, используя свой новый дифференцируемый рендерер, реализованный в PyTorch 3D. В документе используется Генеративная состязательная сеть (GAN) для синтеза выходного изображения на основе входных данных визуализированного облака точек.

Поскольку SynSin зависит от визуализированного облака точек 3D в качестве основы для создания сцены, он может генерировать изображения с различным разрешением благодаря гибкости визуализированного облака точек с большей эффективностью по сравнению с современными методами.

Мы можем генерировать изображения с высоким разрешением и обобщать их для других входных разрешений.

Wiles et al. - "Источник"

Объекты, проецируемые трехмерным облаком точек, также декодируются предложенной авторами сетью уточнения, чтобы помочь закрасить отсутствующие области и создать более реалистичное окончательное изображение на выходе. По сравнению с недавними методами, которые часто используют плотные сетки вокселей, подход авторов этой статьи может масштабироваться до создания синтетических сцен в сложных реальных сценариях. Это то, что большинство современных подходов не смогли достичь с приличной точностью.

Полную версию статьи Wiles, Gkioxari, Szeliski и Johnson можно просмотреть здесь для более подробного объяснения нюансов их дифференцируемого средства визуализации и GAN.

Реконструкция трехмерных человеческих фигур с беспрецедентным уровнем детализации и качества из одного изображения

Исследователи из Facebook AI основывались на методе неявной функции выравнивания пикселей (PIFu), выпущенном Saito et al. в 2019 году и создал многоуровневую нейронную сеть для разработки метода создания 3D-реконструкций людей из 2D-изображений, который способен улавливать современные тонкости и детали и отображать их в виде 3D-модели. Особые детали, такие как пальцы, черты лица и складки одежды, фиксируются с использованием фотографий с высоким разрешением в качестве входных данных для сети.

Созданную сеть можно условно разделить на две основные части в зависимости от их функций. Первая часть (или сеть первого уровня) воссоздает трехмерную структуру человека, используя изображения с более низким разрешением. Эта часть похожа на метод PIFu, на котором построили исследователи. Вторая сеть более легкая по своей природе и использует изображения с более высоким разрешением для захвата и визуализации более тонких аспектов человеческого существа.

Предоставляя доступ к глобальной трехмерной информации с первого уровня, наша система может эффективно использовать локальную и глобальную информацию для трехмерной реконструкции человека с высоким разрешением.

Сайто и др. - "Источник"

Методы, используемые исследователями для такой детальной реконструкции людей в 3D, могут оказаться серьезным стимулом для AR / VR-опыта, а также для нескольких приложений электронной коммерции.

Полную версию статьи Сайто, Хуанга, Нацумэ, Моришимы, Канадзавы и Ли можно найти здесь.

Объединение 2D-голосов в изображениях и 3D-голосов в облаках

В статье, посвященной скорее теоретическому подходу, чем применению, исследователи из Facebook AI выпустили ImVoteNet, улучшенную архитектуру обнаружения 3D-объектов, специализирующуюся на сценах RGB-D. Они изучили, как данные из 2D-изображений могут помочь конвейеру обнаружения 3D на основе голосования. Несколько недавних работ (например, VoteNet) продемонстрировали современные перформансы с использованием только облаков точек. Статья ImVoteNet основана на архитектуре VoteNet и объединяет трехмерную геометрию, предоставляемую облаками точек, с высоким разрешением и текстурой изображений, чтобы извлекать как геометрические, так и семантические особенности из двухмерных изображений.

Облака точек, хотя и полезны для эффективного обнаружения объектов в трех измерениях, обычно имеют врожденные ограничения в своих данных. Данные, полученные с помощью облаков точек, обычно разрежены, не имеют информации о цвете и иногда страдают от шума сенсора. Объединение характеристик 2D-изображений и 3D-облаков точек с использованием схемы обучения с несколькими башнями помогло исследователям извлечь максимум из обоих исходных изображений. Исследователи успешно извлекли геометрические и семантические особенности из 2D-изображения и использовали параметры камеры, чтобы поднять их до 3D. Построенная система основана на механизме vohereting для эффективного агрегирования геометрической информации в облаках точек. ImVoteNet отвечает за значительное ускорение обнаружения 3D-объектов с помощью мультимодального обучения с градиентным смешиванием в настройках, где облако точек является разреженным по своей природе или имеет неблагоприятное распределение.

Полную версию статьи Qi, Chen, Litany и Guibas можно найти здесь.

Какими бы увлекательными ни были эти документы, CVPR содержит гораздо больше, чем то, что показано выше. Конкурсы, беседы экспертов и мастер-классы - это то, за чем нужно следить. От депикселирования изображений до скрытых автоэнкодеров - одни из самых инновационных и интересных статей публикуются каждый год. Более подробную информацию о CVPR, принятых статьях, конкурсах и выступлениях можно найти на его домашней странице.