Как работает 3D Dense Captioning, часть 2 (машинное обучение)

Контекстное моделирование для плотных 3D-субтитров в облаках точек (arXiv)

Автор: Юфэн Чжун, Лун Сюй, Цзебо Луо, Линь Ма.

Аннотация: трехмерные плотные субтитры, как новая задача языка зрения, направлены на идентификацию и определение местоположения каждого объекта из набора облаков точек и создание характерного предложения на естественном языке для описания каждого обнаруженного объекта. Однако существующие методы в основном сосредоточены на изучении взаимосвязей между объектами, игнорируя при этом контекстную информацию, особенно детали, не относящиеся к объектам, и фоновую среду в облаках точек, что приводит к низкокачественным описаниям, таким как неточная информация об относительном положении. В этой статье мы предприняли первую попытку использовать функции кластеризации облаков точек в качестве контекстуальной информации для предоставления необъектных деталей и фоновой среды облаков точек и включения их в задачу трехмерных плотных субтитров. Мы предлагаем два отдельных модуля, а именно Моделирование глобального контекста (GCM) и Моделирование локального контекста (LCM), в грубой и точной манере для выполнения контекстного моделирования облаков точек. В частности, модуль GCM фиксирует межобъектные отношения между всеми объектами с глобальной контекстной информацией, чтобы получить более полную информацию о сцене всего облака точек. Модуль LCM использует влияние соседних объектов целевого объекта и локальной контекстной информации для обогащения представлений объекта. С такими глобальными и локальными контекстными стратегиями моделирования предлагаемая нами модель может эффективно характеризовать представления объектов и контекстную информацию и тем самым генерировать исчерпывающие и подробные описания расположенных объектов. Обширные эксперименты с наборами данных ScanRefer и Nr3D демонстрируют, что предложенный нами метод устанавливает новый рекорд в задаче плотных трехмерных субтитров, и подтверждают эффективность нашего контекстного моделирования облаков точек.

2. Трансформатор с пространственным управлением для плотных 3D-субтитров на облаках точек (arXiv)

Автор: Хэн Ван, Чаойи Чжан, Цзяньхуэй Юй, Вэйдун Цай.

Аннотация: Плотные субтитры в трехмерных облаках точек — это новая задача на зрение и язык, включающая понимание трехмерных сцен на уровне объектов. Помимо грубого предсказания семантического класса и регрессии ограничивающей рамки, как при традиционном обнаружении 3D-объектов, плотные 3D-титры направлены на создание дополнительной и более точной метки на уровне экземпляра описания естественного языка для визуального вида и пространственных отношений для каждого интересующего объекта сцены. Чтобы обнаруживать и описывать объекты в сцене, следуя духу нейронного машинного перевода, мы предлагаем архитектуру кодировщика-декодера на основе преобразователя, а именно SpaCap3D, для преобразования объектов в описания, где мы специально исследуем относительную пространственность объектов в 3D-сценах и спроектировать кодировщик с пространственным управлением с помощью цели обучения пространственному отношению между маркерами и объектно-ориентированный декодер для точного и расширенного пространственного создания заголовков объектов. Оцененный на двух эталонных наборах данных, ScanRefer и ReferIt3D, предлагаемый нами SpaCap3D превосходит базовый метод Scan2Cap на 4,94% и 9,61% в CIDEr@0,5IoU соответственно. Страница нашего проекта с исходным кодом и дополнительными файлами доступна по адресу https://SpaCap3D.github.io/

Как работает 3D Dense Captioning, часть 2 (машинное обучение)

Вопросы по теме