1. Усиление сегментации видеообъектов с помощью обучения пространственно-временному соответствию (arXiv)

Автор: Южун Чжан, Люлей Ли, Вэньгуань Ван, Ронг Се, Ли Сун, Вэньцзюнь Чжан.

Аннотация: Текущие ведущие решения для сегментации видеообъектов (VOS) обычно следуют режиму на основе сопоставления: для каждого кадра запроса маска сегментации выводится в соответствии с ее соответствием ранее обработанным и первым аннотированным кадрам. Они просто используют контролирующие сигналы от масок истинности только для предсказания маски обучения, не накладывая никаких ограничений на сопоставление пространственно-временных соответствий, которое, однако, является фундаментальным строительным блоком такого режима. Чтобы решить эту важную, но часто игнорируемую проблему, мы разрабатываем платформу обучения с учетом соответствия, которая улучшает решения VOS на основе сопоставления, явно поощряя надежное сопоставление соответствий во время обучения сети. Благодаря всестороннему изучению внутренней согласованности в видео на уровне пикселей и объектов наш алгоритм усиливает стандартное, полностью контролируемое обучение сегментации по маске с помощью обучения по контрастному соответствию без меток. Не требуя дополнительных затрат на аннотации во время обучения, не вызывая задержки скорости во время развертывания и не подвергаясь архитектурным изменениям, наш алгоритм обеспечивает значительный прирост производительности в четырех широко используемых тестах, то есть VOS-решения

2. Сеть распространения совместного внимания для сегментации видеообъектов Zero-Shot (arXiv)

Автор: Гэньшэн Пей, Ячжоу Яо, Фумин Шэнь, Дань Хуан, Сингуо Хуан, Хэн-Тао Шэнь.

Аннотация: Сегментация видеообъектов с нулевым кадром (ZS-VOS) направлена ​​на сегментацию объектов переднего плана в видеопоследовательности без предварительного знания этих объектов. Однако существующие методы ZS-VOS часто затрудняют различение переднего плана и фона или отслеживание переднего плана в сложных сценариях. Обычная практика введения информации о движении, такой как оптический поток, может привести к чрезмерной зависимости от оценки оптического потока. Для решения этих проблем мы предлагаем иерархическую сеть распространения совместного внимания (HCPN) на основе кодера-декодера, способную отслеживать и сегментировать объекты. В частности, наша модель построена на нескольких совместных эволюциях модуля параллельного совместного внимания (PCM) и модуля перекрестного совместного внимания (CCM). PCM захватывает общие области переднего плана среди смежных элементов внешнего вида и движения, в то время как CCM дополнительно использует и объединяет кросс-модальные признаки движения, возвращаемые PCM. Наш метод постепенно обучается для достижения иерархического распространения пространственно-временных признаков по всему видео. Экспериментальные результаты показывают, что наш HCPN превосходит все предыдущие методы в общедоступных тестах, демонстрируя его эффективность для ZS-VOS.