Лучшее исследование по анализу сцен, часть 2 (машинное обучение)

VIBUS: Анализ 3D-сцен с эффективным использованием данных с узким местом точки зрения и моделированием спектра неопределенности (arXiv)

Автор: Бэйвэнь Тянь, Лии Луо, Хао Чжао, Гуюэ Чжоу.

Аннотация: В последнее время парсинг 3D-сцен с помощью подходов глубокого обучения был горячей темой. Тем не менее, современные методы с полностью контролируемыми моделями требуют ручного аннотированного точечного наблюдения, что чрезвычайно неудобно для пользователя и требует много времени для получения. Таким образом, обучение моделей разбора 3D-сцен с редким наблюдением является интригующей альтернативой. Мы называем эту задачу анализом 3D-сцены с эффективным использованием данных и предлагаем эффективную двухэтапную структуру под названием VIBUS для ее решения за счет использования огромных немаркированных точек. На первом этапе мы выполняем самоконтролируемое обучение представлению на немаркированных точках с помощью предложенной функции потери узкого места точки обзора. Функция потерь выводится из цели информационного узкого места, наложенной на сцены с разных точек зрения, что делает процесс обучения представлению свободным от ухудшения и выборки. На втором этапе псевдометки собираются из разреженных меток на основе моделирования спектра неопределенности. Путем объединения мер неопределенности, управляемых данными, и мер спектра трехмерной сетки (полученных из нормальных направлений и геодезических расстояний) получается надежная метрика локального сходства. Конечные смешанные модели гамма/бета используются для декомпозиции распределений этих показателей по категориям, что приводит к автоматическому выбору пороговых значений. Мы оцениваем VIBUS на общедоступном эталонном тесте ScanNet и добиваемся самых современных результатов как на проверочном наборе, так и на тестовом онлайн-сервере. Исследования абляции показывают, что как узкое место точки зрения, так и моделирование спектра неопределенности приносят значительные улучшения. Коды и модели находятся в открытом доступе на https://github.com/AIR-DISCOVER/VIBUS

2. Повышение разбора ночных сцен с обучаемой частотой (arXiv)

Автор: Чжифэн Се, Сэн Ван, Кэ Сюй, Чжичжун Чжан, Синь Тан, Юань Се, Личжуан Ма.

Аннотация: Анализ ночных сцен (NTSP) необходим для многих приложений машинного зрения, особенно для автономного вождения. Большинство существующих методов предлагается для разбора дневной сцены. Они основаны на моделировании пространственных контекстных сигналов на основе интенсивности пикселей при равномерном освещении. Следовательно, эти методы плохо работают в ночных сценах, поскольку такие пространственные контекстуальные сигналы скрыты в пере-/недоэкспонированных областях в ночных сценах. В этой статье мы сначала проводим статистический эксперимент, основанный на частоте изображений, для интерпретации расхождений дневных и ночных сцен. Мы обнаружили, что распределение частот изображения значительно различается между дневными и ночными сценами, и понимание таких распределений частот имеет решающее значение для проблемы NTSP. Исходя из этого, мы предлагаем использовать частотные распределения изображений для анализа ночных сцен. Во-первых, мы предлагаем обучаемый частотный кодер (LFE) для моделирования взаимосвязи между различными частотными коэффициентами для динамического измерения всех частотных составляющих. Во-вторых, мы предлагаем модуль Spatial Frequency Fusion (SFF), который объединяет как пространственную, так и частотную информацию, чтобы направлять извлечение признаков пространственного контекста. Обширные эксперименты показывают, что наш метод выгодно отличается от современных методов на наборах данных NightCity, NightCity+ и BDD100K-night. Кроме того, мы демонстрируем, что наш метод можно применять к существующим методам разбора дневных сцен и повышать их производительность на ночных сценах.

Лучшее исследование по анализу сцен, часть 2 (машинное обучение)

Вопросы по теме