Последние обновления Dense Video Captioning 2023, часть 3 (Computer Vision)

SAVCHOI: Обнаружение подозрительных действий с помощью плотных субтитров к видео с взаимодействием с человеческими объектами (arXiv)

Автор: Анш Миттал, Шувам Гхосал, Ришибха Бансал.

Аннотация: Обнаружение подозрительных действий на видеозаписях видеонаблюдения — давняя проблема наблюдения в режиме реального времени, которая приводит к трудностям в раскрытии преступлений. Следовательно, мы предлагаем новый подход к обнаружению и обобщению подозрительных действий в видео наблюдениях. Мы также создали наземные сводки для набора видеоданных UCF-Crime. Мы модифицируем ранее существовавший подход к этой задаче, используя модель взаимодействия человека и объекта (HOI) для визуальных функций в бимодальном преобразователе. Кроме того, мы проверяем наш подход на соответствие существующим современным алгоритмам для задачи Dense Video Captioning для набора данных ActivityNet Captions. Мы наблюдаем, что эта формулировка для плотных субтитров работает значительно лучше, чем другие обсуждаемые подходы на основе BMT для BLEU@1, BLEU@2, BLEU@3, BLEU@4 и METEOR. Далее мы проводим сравнительный анализ набора данных и модели, чтобы сообщить о результатах, основанных на различных пороговых значениях NMS (поиск с использованием генетических алгоритмов). Здесь наша формула превосходит все модели для BLEU@1, BLEU@2, BLEU@3 и большинство моделей для BLEU@4 и METEOR, уступая только ADV-INF Global на 25% и 0,5% соответственно.

2. Сквозные плотные субтитры видео как генерация последовательности (arXiv)

Автор: Wanrong Zhu, Bo Pang, Ashish V. Thapliyal, William Yang Wang, Radu Soricut.

Аннотация: плотные субтитры к видео предназначены для выявления интересующих событий во входном видео и создания описательных подписей для каждого события. Предыдущие подходы обычно следуют двухэтапному генеративному процессу, который сначала предлагает сегмент для каждого события, а затем отображает заголовок для каждого идентифицированного сегмента. Недавние достижения в предварительном обучении крупномасштабной генерации последовательностей показали большой успех в унификации формулировок задач для самых разных задач, но до сих пор более сложные задачи, такие как плотные субтитры к видео, не могут в полной мере использовать эту мощную парадигму. В этой работе мы покажем, как смоделировать две подзадачи плотного видеосубтитров вместе как одну задачу генерации последовательности и одновременно прогнозировать события и соответствующие описания. Эксперименты на YouCook2 и ViTT показывают обнадеживающие результаты и указывают на возможность обучения сложным задачам, таким как сквозное добавление плотных субтитров к видео, интегрированных в крупномасштабные предварительно обученные модели.

Последние обновления Dense Video Captioning 2023, часть 3 (Computer Vision)

Вопросы по теме