Большие события вот-вот произойдут: Google выпускает набор данных Objectron

Что-то изменится в 3D Computer Vision Research

Подобно тому, как программа ImageNet Large Scale Visual Recognition Challenge (ILSVRC) изменила подход к обнаружению объектов и классификации изображений, набор данных Objectron зажжет то же пламя для усовершенствования 3D-компьютера. Системы технического зрения. Несмотря на то, что было проделано много работы в отношении 3D Computer Vision, в основном она была сосредоточена на создании систем для автономных транспортных средств.

Набор данных Объектрона

Набор данных Objectron предоставляет нам короткие видеоролики с 8 классами обычных объектов, а также трехмерные ограничивающие рамки для каждого из кадров, а также множество данных, таких как позы камеры, разреженные облака точек и характеристики плоских поверхностей вокруг объектов. В целом вы получаете 15 000 аннотированных видео и 4 М аннотированных кадров, охватывающих 10 стран мира.

Теперь давайте углубимся. Прежде всего, давайте посмотрим на распределение классов в наборе данных. Этот набор данных несбалансирован😢. Чтобы дать вам математическое представление, этот набор данных имеет энтропию Шеннона 3,06. Но тогда есть много способов решить эту проблему, таких как субдискретизация, создание синтетических данных, функции потерь, которые обрабатывают дисбаланс классов, например, фокусные потери и т. д.

Поскольку большинство примеров относятся к книгам, а меньше всего — к велосипедам, этот набор данных больше фокусируется на объектах, которые вы могли бы найти в помещении.

Для оценки обнаружения 3D-объектов у нас есть 3D-аналог IoU (пересечение над объединением), т. е. 3D IoU. Это работает путем нахождения точек пересечения ограничивающих 3D-рамок, а затем с использованием объема вместо площади для расчета IoU.

Области, которые будут разрушены

Дополненная реальность

Это поле, которое больше всего выиграет от этого набора данных. Наборы данных с внутренними объектами менее общедоступны, в то время как большинство из них сосредоточено на автономных транспортных средствах. Это действительно подстегнет исследования и приложения дополненной реальности. Наряду с Google ARCore, Apple ARKit и другими, мы увидим отличные разработки NIPS в следующем году.

Робототехника

Робототехника — это одна из областей, где анализ 3D-сцен имеет большее значение, если робот должен взаимодействовать с реальным миром. Поднятие вещей требует оценки позы объекта (угол, под которым объект лежит на поверхности) — это одна из вещей, которая будет значительно улучшена с этим. Помимо понимания поверхности, оценка глубины, классификация форм и обнаружение 3D-плоскости — это другие вещи, которые выиграют от этого.

Поиск изображений

Такие вещи, как Google Lens, теперь будет намного проще сделать каждому. Будут возможны даже более сложные запросы, например, где вы описываете угол камеры или расстояние от камеры.

Посмотреть синтез

Синтез вида — это создание вида объекта под другим углом. Это поле будет перегружено. Посмотрите это почетное упоминание в примере ECCV 2020, чтобы увидеть, как выглядит синтез представлений. Поскольку этот набор данных содержит точные данные, которые вам потребуются для выполнения задачи синтеза представлений. Ваши 2D-фотографии оживут!

3D-представление

3D-представление — это создание 3D-модели объекта при наличии любой модальности. В рамках этого набора данных вы можете иметь облака точек, изображения с несколькими видами и т. Д. Эта область получит большой толчок. Появились хорошие данные, над которыми можно работать всем.

Неконтролируемое обучение

За неконтролируемым обучением будущее! Поскольку основное внимание уделяется приложениям, в которых мы маркируем данные или сами маркируем наши данные, меньше внимания уделяется тому, где происходит настоящее волшебство. Но следующий большой взрыв произойдет здесь, потому что когда нам больше не понадобятся ярлыки, тогда возможности станут совершенно безграничными.

Этот набор данных откроет двери для этого в случае трехмерного компьютерного зрения. В то время как большая часть работы в области 3D кажется зачаточной, самое время взглянуть на неконтролируемый аспект. Маркировка данных намного дороже для 3D по сравнению с 2D зрением, требующим специализированного оборудования.

Перспектива развития

С точки зрения разработчиков ML/AI, которые хотят напрямую изучить реальные приложения моделей, полученных из этого набора данных, Google поможет вам.

Вступай, МедиаПайп Объектрон!

Эта модель может неизменно использоваться на любой платформе и может предоставить вам ограничивающие 3D-рамки 😃. Сходите с ума со своими идеями прямо сейчас!!! Но на данный момент у него есть ограничения: модели доступны только для обуви, стульев, кружек и камер.

Кроме того, Google выпустил блокноты Colab для загрузки набора данных в Tensorflow и PyTorch, 3D IoU и SequenceExample (новый формат, отличный от tf.examples) среди других. Для получения дополнительной информации ознакомьтесь с их репозиторием GitHub.

Резюме

С выпуском этого замечательного набора данных в области 3D Computer Vision мы увидим, что в следующем году произойдут замечательные события. Ткань реальности (я имею в виду дополненную реальность) будет продвигаться намного дальше. Наши смартфоны получат несколько отличных приложений, с которыми можно поиграть.

Кроме того, как с точки зрения исследователя, так и с точки зрения разработчика дела обстоят лучше, поскольку новые данные только что появились вместе с готовыми к использованию моделями. Было бы очень здорово увидеть какие-нибудь интересные приложения, которые люди придумали для этой модели!