Сеть динамической сегментации видео (CVPR 2018)

Адаптивный способ ускорить семантическую сегментацию!

В области компьютерного зрения (CV) «семантическая сегментация» была фундаментальной проблемой для понимания и классификации объектов в воспринимаемых пейзажах. Семантическая сегментация — это процесс распознавания объектов и маркировки их на уровне пикселей разными цветами.

В этой работе мы представляем подробный проект сети динамической сегментации видео (DVSNet) для быстрой и эффективной семантической сегментация видео. DVSNet состоит из двух сверточных нейронных сетей (CNN): сети сегментации и поточная сеть. Первый генерирует высокоточные семантические сегментации, но он глубже и медленнее. Последний намного быстрее первого, но его выходные данные требуют дальнейшей обработки для создания менее точной семантической сегментации. Мы изучаем использование сети принятия решений (DN) для адаптивного назначения разных областей кадра разным сетям на основе метрики, называемой ожидаемой оценкой достоверности. Области кадра с более высоким ожидаемым показателем достоверности пересекают потоковую сеть. Области кадра с более низким ожидаемым показателем достоверности должны пройти через сегментацию. Мы провели обширные эксперименты с различными конфигурациями DVSNet и исследовали несколько вариантов предлагаемого DN. Экспериментальные результаты показывают, что наша DVSNet способна достичь точности до 70,4% миллионов при частоте кадров 19,8 в секунду (fps). в наборе данных Cityscape. Высокоскоростная версия DVSNet способна обеспечить частоту кадров 30,4 с 63,2% MIOU для того же набора данных. DVSNet также может сокращать до 95 % вычислительных рабочих нагрузок.

Нет необходимости повторно обрабатывать каждый пиксель кадра с помощью этих моделей глубокой семантической сегментации в видеопоследовательности.

Рис. 1 иллюстрирует пример вышеупомянутого наблюдения. В левой части показаны видеокадры с временными метками t и t + 10 соответственно. Правая часть показывает разницу между этими двумя кадрами. Можно заметить, что только небольшая часть кадров, по-видимому, отличается (выделена красными прямоугольниками), что означает, что большая часть карт признаков между этими кадрами неизменна или просто немного различается. Поэтому выполнение сложной семантической сегментации всего видеокадра потенциально может быть пустой тратой времени. Сохраняя или слегка изменяя карты признаков частей с незначительными различиями в кадрах при выполнении семантической сегментации для остальных, мы можем добиться большей эффективности и меньшей задержки в семантической сегментации видео, чем при покадровых подходах.

Чтобы увеличить скорость обработки семантической сегментации видео, мы используем временные корреляции между последовательными кадрами.

Последовательные видеокадры, которые не изменяются быстро, имеют схожие семантические характеристики высокого уровня. С другой стороны, кадры, содержащие несколько движущихся объектов, демонстрируют несопоставимые карты признаков с разными временными метками. Рис. 2 иллюстрирует пример таких сценариев. На рис. 2 (а) показана семантическая сегментация, выполненная на шоссе, которое содержит меньше объектов и, следовательно, приводит к меньшему количеству изменений в последовательных сегментированных изображениях. На рис. 2(б), напротив, видеоряд, снятый с местной улицы, содержащей десятки движущихся объектов, приводит к большему изменению последовательных сегментированных изображений. Первый предлагает повторное использование извлеченных признаков и их обновление с минимальным количеством вычислений (например, с помощью более мелкой CNN), в то время как второй требует выполнения высокоточной семантической сегментации для каждого отдельного кадра (например, с помощью более глубокой CNN).

Обзор DVSNet

Основываясь на приведенных выше наблюдениях, мы предлагаем новую сетевую архитектуру, называемую сеть динамической сегментации видео (DVSNet), для адаптивного применения двух разных нейронных сетей к разным областям кадров. максимальное использование пространственной и временной избыточности в картах объектов для ускорения скорости обработки.

DVSNet состоит из двух сетей. Одна из сетей называется сегментация. Она генерирует высокоточные семантические сегменты, но более глубокая и медленная. Другой называется потоковой сетью. поточная сеть намного тоньше и быстрее, чем сегментация, но ее выходные данные требуют дальнейшей обработки для получения оценочных данных. семантические сегментации (которые могут быть менее точными, чем сгенерированные сегментацией). Первая может быть реализована любой современной современной архитектурой, а вторая разработана на базе FlowNet 2.0¹.

Мы делим каждый кадр на несколько областей. Области с небольшими различиями между последовательными кадрами, где большая часть содержимого изображения схожа, должны пересекать сеть потока (рис. 2 (а)). Области с огромными различиями между последовательными кадрами, в которых существенно меняется содержимое, должны пройти через сегментацию (рис. 2 (b)). Другими словами, разные области кадра могут проходить через разные сети разной длины, когда они представлены в DVSNet. Мы обозначаем области, обрабатываемые сетью сегментации и потоковой сетью, в качестве областей ключевого кадра и областей пространственной деформации, соответственно. DVSNet предлагает два основных преимущества. Во-первых, повышается эффективность, поскольку DVSNet адаптирует свою пропускную способность к различиям между последовательными областями кадра во время выполнения. Во-вторых, благодаря использованию потоковой сети можно сэкономить значительные объемы вычислений. Эта схема в первую очередь ориентирована на семантическую сегментацию видео.

Как эффективно повторно использовать область кадра? Платформа DVSNet!

Структура DVSNet состоит из трех основных этапов. Первым шагом в структуре DVSNet является разделение входных кадров на области кадров. Мы предполагаем, что Ik представляет ключевой кадр, Ii представляет текущий кадр, а количество областей кадра равно четырем. На шаге 2 DN анализирует пары областей кадра между Ik и Ii и оценивает ожидаемые показатели достоверности для четырех регионов отдельно. Затем DN сравнивает ожидаемый показатель достоверности для каждого региона с заданным пороговым значением. Если ожидаемый показатель достоверности для региона ниже порогового значения, соответствующий регион отправляется на путь сегментации. В противном случае он перенаправляется на путь пространственного деформирования, который включает в себя потоковую сеть. В соответствии с решениями DN на шаге 3 области кадра перенаправляются по разным путям для создания региональной семантической сегментации. Для пути пространственной деформации используется специальная функция деформации W(*)² для обработки выходных данных потоковой сети F с сегментацией Sk из той же области ключевого кадра, чтобы создать новую сегментацию Oc для этой области.

Как сеть принятия решений определяет пути выполнения?

DN — это упрощенная CNN, состоящая только из одного сверточного слоя и трех полносвязных слоев, как показано на рис. 4. DN принимает в качестве входных данных карты объектов из одного из промежуточных слоев потоковой сети и обучается выполнять регрессию. Цель DN – научиться предсказывать ожидаемую оценку достоверности для области кадра как можно ближе к истинной достоверности.

На рис. 5 показаны политики планирования ключевых кадров. На рис. 5 (а) используется фиксированный период обновления, который предопределен и не принимает во внимание качество и эффективность. Например, более эффективно обрабатывать последовательность кадров аналогичного содержания с более длительным периодом обновления, поскольку самой поточной сети достаточно для получения удовлетворительных результатов. С другой стороны, когда ситуация резко меняется, более разумно использовать сегментацию. Это связано с тем, что потоковая сеть не может предсказать смещение невидимых объектов, не существующих в соответствующей области ключевого кадра. Мы предлагаем адаптивную политику планирования ключевых кадров с использованием DN и ожидаемого показателя достоверности. Политика адаптивного планирования ключевых кадров проиллюстрирована на рис. 5 (b), в котором период обновления не является фиксированным и определяется в соответствии с ожидаемой оценкой достоверности для этой области.

Экспериментальные результаты

Мы провели обширные эксперименты для различных конфигураций DVSNet и показали, что DVSNet превосходит современные современные модели семантической сегментации с точки зрения эффективности и гибкости. Если вы заинтересованы в этой работе, перейдите по ссылкам arXiv и Github для получения более подробной информации.

Веб-сайт CVPR 2018: https://tinyurl.com/y37x2j8z

ArXiv: https://arxiv.org/abs/1804.00931

Github: https://github.com/XUSean0118/DVSNet

Пожалуйста, цитируйте нашу статью как:

Ю.-С. Сюй, Т.-Дж. Фу, Х.-К. Ян и С.-Ю. Lee, "DСеть динамической сегментации видео", в Proc. IEEE Computer Vision and Pattern Recognition (CVPR), стр. 6556–6565, июнь 2018 г.

[1] Э. Илг и др., «FlowNet 2.0: Эволюция оценки оптических потоков с помощью глубоких сетей», в Proc. Конф. IEEE. Компьютерное зрение и распознавание образов (CVPR), стр. 1647–1655, июль 2017 г.

[2] X. Zhu, Y. Xiong, J. Dai, L. Yuan и Y. Wei, «Глубокий поток функций для распознавания видео», Proc. Конф. IEEE. Компьютерное зрение и распознавание образов (CVPR), стр. 4141–4150, июль 2017 г.