На этой неделе я посетил 10-й мастер-класс Распознавание 3D-объектов, который проходил в рамках предварительной части ЕвроГрафики. Мое мнение о подавляющем большинстве представленных работ заключается в том, что академия занимается неправильными проблемами.

В частности — большая часть представленных исследований (хотя и не все) касалась моделей САПР, их индексации, анализа, поиска сходства, дескрипторов и преобразований для них. На мой взгляд, это подход, который потерял связь с реальным состоянием данных в реальном мире и обусловлен в основном культурными причинами, такими как наличие предыдущей работы, на которую можно положиться, и бенчмарков на основе САПР.

За последние два года мы наблюдаем рост числа 3D-сканеров и камер определения глубины, начиная от низкокачественных устройств стоимостью всего несколько сотен долларов и заканчивая дорогими промышленными устройствами с высоким разрешением, которые дают впечатляющие результаты. Ситуация изменилась, и отсканированные данные, которых было меньшинство, теперь можно легко генерировать в больших количествах. Эти данные варьируются от игрушек, отсканированных в лаборатории, до огромных городских сцен, отсканированных дронами, однако большинство алгоритмических работ, представленных в 3DOR, касались моделей САПР. Я считаю, что на это есть две основные причины:

  1. Здесь почти нет наборов отсканированных данных с тегами, и ни один из них не имеет существенного размера (SceneNN, возможно, лучшая работа на данный момент, содержит всего 100 сцен).
  2. Большинство существующих методов адаптированы для моделей САПР и, таким образом, чувствительны к одному или всем из следующих признаков, характерных для отсканированных данных:
  • Высокочастотный шум из-за проблем с точностью сканера.
  • Неполные модели из-за окклюзии или просто несканированных сторон объекта.
  • Отверстия.
  • Открытые границы.

Причина (1) становится еще более серьезной проблемой для всех, кто хочет следовать тенденции глубокого обучения, поскольку она — как и большинство подходов ML — требует размеченных наборов данных значительного размера.

Я считаю, что есть два типа данных, к которым академические круги должны серьезно относиться в предстоящие год или два — отсканированные данные малого масштаба, такие как отдельные модели и сцены в помещении, и отсканированные данные большого масштаба, такие как целые здания и улицы. С предстоящей камерой глубины в iPhone8 мы можем ожидать распространения первой, в то время как вторая станет результатом более широкого использования промышленных сканеров в сфере безопасности, строительства и дронов.

По моему опыту, алгоритмы, которые хорошо работали с CAD-моделями, чаще всего оказывались бесполезными для отсканированных данных. Это плохая новость для повторного использования большей части предыдущей работы как есть, но это также и хорошая новость, поскольку она дает надежду на то, что в ближайшие годы мы увидим захватывающие новые подходы к поиску и распознаванию 3D-изображений, которые действительно повлияют на развитие технологий. развивались, а значит, и на жизни людей.

Первоначально опубликовано на www.shirpeled.com 25 апреля 2017 г.