1. MaskGroup: иерархическая группировка точек и маскирование для сегментации 3D-экземпляров (arXiv)

Автор: Минь Чжун, Синхао Чен, Сяокан Чен, Ган Цзэн, Юньхэ Ван.

Аннотация: В этой статье исследуется проблема сегментации 3D-экземпляров, которая имеет множество реальных приложений, таких как робототехника и дополненная реальность. Поскольку окружение 3D-объектов имеет высокую сложность, разделение разных объектов очень затруднено. Чтобы решить эту сложную проблему, мы предлагаем новую структуру для группировки и уточнения 3D-экземпляров. На практике мы сначала изучаем вектор смещения для каждой точки и сдвигаем его к предсказанному центру экземпляра. Чтобы лучше сгруппировать эти точки, мы предлагаем алгоритм иерархической группировки точек для постепенного объединения централизованно агрегированных точек. Все точки группируются в небольшие кластеры, которые далее постепенно проходят еще одну процедуру кластеризации, чтобы объединиться в более крупные группы. Эти многомасштабные группы используются для прогнозирования экземпляров, что полезно для прогнозирования экземпляров с разными масштабами. Кроме того, разработан новый MaskScoreNet для создания бинарных точечных масок этих групп для дальнейшего уточнения результатов сегментации. Обширные эксперименты, проведенные на тестах ScanNetV2 и S3DIS, демонстрируют эффективность предложенного метода. Например, наш подход обеспечивает mAP 66,4% с порогом 0,5 IoU на тестовом наборе ScanNetV2, что на 1,9% выше, чем у современного метода.

2. Глубокая иерархическая семантическая сегментация (arXiv)

Автор: Люлей Ли, Тяньфэй Чжоу, Вэньгуань Ван, Цзяну Ли, И Ян.

Аннотация: люди способны распознавать структурированные отношения при наблюдении, что позволяет нам разлагать сложные сцены на более простые части и абстрагировать визуальный мир на нескольких уровнях. Однако такая способность человеческого восприятия к иерархическому мышлению остается в значительной степени неисследованной в современной литературе по семантической сегментации. Существующая работа часто знает о плоских метках и предсказывает целевые классы исключительно для каждого пикселя. В этой статье мы вместо этого обращаемся к иерархической семантической сегментации (HSS), которая нацелена на структурированное попиксельное описание визуального наблюдения с точки зрения иерархии классов. Мы разрабатываем HSSN, общую структуру HSS, которая решает две важные проблемы в этой задаче: i) как эффективно адаптировать существующие сети сегментации, не зависящие от иерархии, к настройке HSS, и ii) как использовать информацию об иерархии для регуляризации обучения сети HSS. Чтобы решить проблему i), HSSN напрямую использует HSS как задачу классификации с несколькими метками по пикселям, внося лишь минимальные изменения в архитектуру текущих моделей сегментации. Чтобы решить ii), HSSN сначала исследует неотъемлемые свойства иерархии в качестве цели обучения, которая обеспечивает выполнение прогнозов сегментации в соответствии со структурой иерархии. Кроме того, с ограничениями полей, обусловленными иерархией, HSSN изменяет форму пространства встраивания пикселей, чтобы генерировать хорошо структурированные представления пикселей и в конечном итоге улучшить сегментацию. Мы проводим эксперименты на четырех наборах данных семантической сегментации (например, Mapillary Vistas 2.0, Cityscapes, LIP и PASCAL-Person-Part) с различными иерархиями классов, архитектурами сетей сегментации и магистралями, демонстрируя обобщение и превосходство HSSN.