TT-SRN: платформа сегментации экземпляров видео на основе трансформатора

Совместное обнаружение объектов, сегментация экземпляров, отслеживание объектов и классификация в видеодомене

Что, черт возьми, такое TT-SRN и VIS?

У вас есть 5 секунд, скажите, что такое TT-SRN?

«Быстрый, простой, но точный модуль сегментации экземпляров видео на основе преобразователей»

План атаки

Сегментация экземпляров видео (VIS) - это недавно представленное исследование компьютерного зрения, направленное на совместное обнаружение, сегментацию и отслеживание экземпляров в домене видео. Недавние методы предлагают очень сложные и многоступенчатые сети, которые практически непригодны для использования. Следовательно, на практике необходимы простые, но эффективные подходы. Чтобы восполнить этот пробел, мы предлагаем модуль сегментации экземпляров видео на основе сквозного трансформатора с синусоидальными сетями представления (SRN), а именно TT-SRN, для решения этой проблемы. TT-SRN рассматривает задачу VIS как задачу прогнозирования прямой последовательности в одноэтапном режиме, что позволяет нам агрегировать временную информацию с пространственной. Набор функций видеокадра извлекается двойными преобразователями, которые затем передаются исходному преобразователю для создания набора прогнозов экземпляров. Эта созданная информация на уровне экземпляра затем проходит через модифицированные SRN для получения идентификаторов классов конечного уровня и ограничивающих рамок, а также трехмерных сверток с самообслуживанием для получения масок сегментации. По своей сути TT-SRN представляет собой естественную парадигму, которая обрабатывает сегментацию и отслеживание экземпляров с помощью изучения подобия, что позволяет системе производить быстрый и точный набор прогнозов. TT-SRN обучается от начала до конца с глобальными потерями на основе наборов, которые вынуждают делать уникальные прогнозы через двустороннее сопоставление. Таким образом, общая сложность конвейера значительно снижается без ущерба для качества масок сегментации. Впервые проблема VIS решена без неявных архитектур CNN благодаря двойным трансформаторам, которые являются одним из самых быстрых подходов.

Наш метод можно легко разделить на его подкомпоненты для создания отдельных масок экземпляров и ограничивающих рамок, которые сделают его унифицированным подходом для многих задач видения. Мы сравниваем наши результаты с набором данных YouTube-VIS, сравнивая базовые показатели конкурентов, и показываем, что TT-SRN значительно превосходит базовую модель VIS.

Код и бумага доступны по адресу:



Версия TT-SRN для обнаружения объектов и сегментации изображений:



2. Связанные работы по сегментации экземпляров видео

  1. Сопутствующие работы
    2.1 Сегментация экземпляра на уровне изображения
    2.2 Обнаружение видеообъектов
    2.3 Видео Отслеживание объектов
    2.4 Сегментация экземпляров видео
  2. Предлагаемый подход: TT-SRN
    3.1 Двойные трансформаторы
    3.1.1 Локально-групповое самовнимание (LSA)
    3.1.2 Глобальное субдискретизированное внимание (GSA)
    3.2 Классические преобразователи
    3.2.1 Пространственно-временное позиционное кодирование
    3.2.2 Преобразователь кодировщика
    3.2.3 Трансформаторный декодер
    3.3 Синусоидальные сети представления
    3.4 Согласование последовательности экземпляров
    3.5
    Сегментация последовательности экземпляров
  3. Результаты
    4.1. Подробности реализации
    4.2. Показатели оценки
    4.3. Основные результаты
  4. Заключение
  5. Ссылки
  6. Мы предлагаем высокоэффективный модуль сегментации экземпляров видео, основанный на видении и классических преобразователях с синусоидальными сетями представления, который рассматривает задачу VIS как проблему сквозного прогнозирования набора.

1. Введение в сегментацию экземпляров видео

Сегментация на основе экземпляров и обнаружение объектов в изображениях и видео - фундаментальные проблемы в контексте компьютерного зрения. В отличие от сегментации экземпляров изображений, новая задача направлена ​​на одновременное обнаружение, сегментацию и отслеживание экземпляров объектов в видео [31]. Впервые он представлен в статье о сегментации экземпляров видео [31] с новым алгоритмом под названием Mask-Track R-CNN. Сегментация экземпляров видео является важной задачей для пространственно-временного понимания в области видео с приложениями для редактирования видео, автономного вождения, отслеживания пешеходов, дополненной реальности, зрения роботов и многого другого. Поскольку для этого требуется как сегментация, так и отслеживание, это более сложная задача по сравнению с сегментацией экземпляра на уровне изображения. Кроме того, это помогает нам кодировать пространственно-временные необработанные данные для получения значимой информации вместе с видео, поскольку оно имеет более богатый контент по сравнению с визуально-пространственными данными. С добавлением временного измерения к нашему процессу декодирования мы дополнительно получаем информацию о движении, вариациях точек обзора, освещении, окклюзиях, деформациях и локальных неоднозначностях из видеокадров. Следовательно, сегментация экземпляров видео приобрела популярность как область исследований, и в последнее время она привлекает внимание сообщества к исследованию понимания видео.

Современные подходы позволили разработать очень сложные архитектуры с несколькими сетями и в основном основывались на ориентированных на человека подходах к постобработке (например, подавление не максимального значения) для создания высококачественных масок сегментации и ограничивающих рамок. Как правило, для решения задачи VIS предлагаются подходы, основанные на отслеживании путем обнаружения (подходы сверху вниз) [31, 3, 5] или пространственно-временная встроенная кластеризация [6] (снизу вверх). При нисходящем подходе маски сегментации на уровне изображения создаются, а затем связываются во временном измерении с помощью сложных, созданных вручную правил, чтобы продвигать пространственные предсказания к пространственно-временным предсказаниям, которые усложняют процесс декодирования и приводят к тому, что их практически невозможно использовать. В то время как в восходящих методах пиксели уровня экземпляра в формациях сгруппированы в пространственно-временном пространстве встраивания с неперекрывающимися областями, которые в значительной степени основаны на качестве плотного прогнозирования [6] и требуют нескольких сетей для получения конечных результатов VIS. Следовательно, очень желательны простые, но эффективные, одноэтапные, практически применимые и обучаемые от начала до конца подходы.

В этой статье мы предлагаем новый подход, а именно TTSRN, для уменьшения общей сложности конвейера без ущерба для скорости прогнозов и их качества для получения результатов VIS. Общий конвейер показан на рисунке 1. Для видеокадров набор характеристик изображения извлекается двойным преобразователем, а затем передается в классическую архитектуру преобразователя для получения прогнозов на уровне экземпляра. Эти прогнозы затем передаются в отдельные ветви SRN для создания набора идентификаторов классов, достоверности, ограничивающих рамок и модулей самоуправляемой свертки для получения масок сегментации. По своей природе все подзадачи VIS (классификация, обнаружение, сегментация и отслеживание) являются взаимосвязанными задачами. Следовательно, выходные данные одной задачи могут предоставить важную информацию для другой задачи, которая будет способствовать взаимному облегчению работы всех подмодулей. Понимая это, TT-SRN также упрощается за счет парадигмы обработки подзадач в одном модуле. В то же время, поскольку не существует правил, разработанных человеком для всех отдельных задач VIS, качество функций на уровне экземпляра - еще одна важная часть TT-SRN, которая обеспечивается модулем сдвоенного трансформатора. Двойной трансформатор - это современная архитектура, основанная на пространственно-ориентированных преобразователях зрения и недавно предложенная в статье [9]. Начиная с публикации классических преобразователей в контексте НЛП [28], преобразователи стали де-факто методом для множества задач НЛП (например, машинный перевод и задачи seq-to-seq).

Впервые преобразователи зрения предложены в статье [11] и демонстрируют возможности преобразователей в контексте компьютерного зрения. Однако проблема заключалась в вычислительной сложности, квадратичной по отношению к размеру изображения. Для подавления предложены и продемонстрированы различные преобразователи зрения, что тщательно спроектированные глобальные и локальные механизмы внимания могут превосходить классические архитектуры CNN в задачах плотного прогнозирования [11, 27, 9]. Обходной путь - это локально сгруппированное самовнимание (или самовнимание в неперекрывающихся окнах, как в недавнем Swin Transformer [20]), где входные данные пространственно сгруппированы в неперекрывающиеся окна, и вычисляется стандартное самовнимание. только внутри каждого подокна [9]. Даже преобразователи Swin уменьшают общую вычислительную сложность, они не могут устанавливать связи между неперекрывающимися областями посредством внимания. Чтобы преодолеть это, в статье [9] предлагаются двойные трансформаторы, которые вводят пространственно разделимое самовнимание (SSSA), чтобы облегчить эту проблему. SSSA состоит из локально сгруппированного самовнимания (LSA) и глобального подвыборочного внимания (GSA) [9]. Мы обнаружили, что функции уровня экземпляра, создаваемые двойными трансформаторами, сильно оптимизированы по сравнению с их аналогами в обычных CNN.

Здесь мы также представляем модифицированные сети синусоидальных представлений для задач классификации и обнаружения объектов. Сети синусоидальных представлений предлагаются в статье [25] и демонстрируют, что неявно определенные, непрерывные, дифференцируемые представления сигналов, параметризованные нейронными сетями, превратились в мощную парадигму, предлагающую множество возможных преимуществ по сравнению с традиционными представлениями [25]. Они вводят использование функций периодической активации 2 для неявных нейронных представлений и демонстрируют, что эти сети, получившие название сетей синусоидальных представлений или СИРЕНЫ, идеально подходят для представления сложных естественных сигналов и их производных [25]. В этой статье мы адаптировали архитектуру SIREN для задач плотного прогнозирования и модифицировали ее для повторного использования для прогнозирования ограничивающей рамки и идентификаторов классов. Наши модифицированные сети SRN состоят из нескольких уровней SIREN с отключениями. В качестве последнего уровня SRN помещается полностью связанный уровень с нелинейностью GELU [15] для получения конечных результатов. Предлагаемая архитектура SRN изображена на рисунке 2. Сегментация и отслеживание экземпляров - другие важные аспекты задачи VIS.

«Чтобы выполнить естественную, эффективную и взаимно включающую сегментацию и отслеживание», мы адаптировали модуль сопоставления и отслеживания последовательностей экземпляров из VisTR [29]. «Сопоставление последовательностей экземпляров выполняет сопоставление двудольного графа между последовательностью выходных экземпляров и последовательностью экземпляров наземной истинности и контролирует последовательность, которая однозначно назначает предсказания и их аннотации» [29].

Таким образом, TT-SRN может напрямую сохранять порядок предсказаний [29]. «Сегментация последовательности экземпляров накапливает характеристики маски для каждого экземпляра в нескольких кадрах посредством самовнимания и сегментирует последовательность маски для каждого экземпляра с помощью трехмерных сверток для получения конечных результатов» [29].

Наши основные вклады резюмируются следующим образом.

  • Насколько нам известно, впервые проблема сегментации экземпляра видео решается без каких-либо неявных архитектур CNN, вместо этого в качестве генератора функций на уровне экземпляра используются преобразователи изображения (например, двойные преобразователи).
  • Без привязки TT-SRN является одним из самых быстрых методов, так как работает со скоростью 55,3 FPS и обеспечивает конкурентоспособную точность на YouTube-VIS как 39,3% MAP, значительно превосходя базовую модель VIS.
  • Мы сравниваем TT-SRN с другими современными методами в VIS с точки зрения скорости и точности на YouTube-VIS. Поскольку наш метод является одноэтапным и обучаемым от начала до конца, мы отдаем приоритет сравнению нашего метода с одноэтапным и сквозным подходами с обучением. Мы сравнили TTSRN с Mask Track R-CNN [31], MaskProp [3], VisTR [29] и STEm-Seg [1]. Сводка результатов представлена ​​в таблице 1. Без какого-либо связывания TT-SRN является одним из самых быстрых методов, поскольку он работает со скоростью 55,3 FPS на одном графическом процессоре и обеспечивает конкурентоспособную точность на YouTube-VIS как 39,3% mAP, превосходя базовый уровень VIS. модель со значительным отрывом. По скорости TT-SRN занимает второе место среди современных моделей VIS. Текущий победитель с точки зрения скорости - VisTR [29], поскольку он работает на 57,7 с магистралью ResNet-101 [14] и 69,9 с магистралью ResNet-50 [14]. TT-SRN превосходит текущую базовую модель VIS Mask Track R-CNN, которая работает со скоростью 20,0 FPS, со значительным отрывом по скорости. Этот запас основан на простом механизме TTSRN, основанном на внимании, который требует наименьшего количества шагов для создания прогнозов VIS. Другой конкурентный метод, STEm-seg, работает со скоростью 2,1 FPS, что крайне непригодно для целей реального времени. Скорость MaskProp не упоминается в их статье [3]. Обратите внимание, что время загрузки данных и предварительной обработки не включено в упомянутые результаты. С точки зрения точности TT-SRN значительно превосходит Mask Track R-CNN, так как наша модель достигает 39,3% балла mAP на проверочном наборе YouTube-VIS, тогда как Mask Track R-CNN достигает 30,3% балла mAP. Этот значительный запас обусловлен структурой TTSRN, которая состоит из самых современных подходов во всех компонентах. Кроме того, TT-SRN также с большим отрывом превосходит STEmseg, поскольку STEm-seg достигает 34,6% баллов MAP с магистралью ResNet-101. Поскольку TT-SRN аналогичен VisTR, VisTR с магистралью ResNet-101 превосходит TT-SRN на 0,8% по шкале MAP, тогда как TT-SRN превосходит VisTR с магистралью ResNet-50 на 3,1% по шкале MAP. Текущий победитель, MaskProp, набирает 46,6% баллов по шкале MAP и значительно превосходит TT-SRN. Разрыв между TT-SRN и MaskProp возникает из-за многосетевого дизайна MaskProp, который состоит из пространственно-временной сети выборки [4], сети пирамид функций [17], гибридной каскадной сети задач [8] и уточнения маски с высоким разрешением. постобработка [3]. Будучи одной из простейших архитектур VIS, TT-SRN достигает одного из самых быстрых и точных результатов среди всех конкурентов. Кроме того, TT-SRN можно легко разделить на его подкомпоненты для выполнения отдельных задач VIS, то есть обнаружения объектов, сегментации экземпляров и классификации. Это делает наш подход простым, унифицированным и реализуемым в режиме реального времени без ущерба для качества масок экземпляров.

3. Предлагаемый подход: TT-SRN

В литературе существуют различные подходы к решению задачи сегментации видеоэкземпляров, так как это часто считается многоэтапной проблемой, то есть компоненты сегментации / обнаружения и отслеживания обрабатываются на разных этапах. Однако в недавних исследованиях были предложены одноэтапные, простые, эффективные с вычислительной точки зрения методы решения проблемы, хотя производительность одноэтапных подходов не превосходит многоступенчатые. Следовательно, сообщество исследователей компьютерного зрения расширяет работу, проделанную в статье [31], предлагая либо вариант Mask-Track R-CNN, либо новые подходы к задачам сегментации видеоэкземпляров. STEm-Seg - еще один новый алгоритм для этой задачи, и, в частности, они моделируют видеоклип как единый трехмерный пространственно-временной объем и предлагают новый подход, который сегментирует и отслеживает экземпляры в пространстве и времени за один этап [1].

Затем Чунг-Чинг Лин и др. предложил алгоритм отслеживания сегментации на основе вариационного автокодировщика для задачи сегментации экземпляров видео, поскольку он создает общий кодировщик и три параллельных декодера, что дает три непересекающиеся ветви для предсказаний будущих кадров, блоков обнаружения объектов и масок сегментации экземпляров [16]. Чтобы облегчить исследование вместе с проблемой, Jiale Cao et.al предложили другой одноэтапный новый алгоритм, названный SipMask, который сохраняет пространственную информацию, специфичную для экземпляра, путем разделения предсказания маски экземпляра на разные подобласти обнаруженного ограничивающего прямоугольника [ 6]. Затем VisTR предлагается как одноступенчатая архитектура VIS на основе трансформатора, которая рассматривает задачу VIS как прямую проблему декодирования / прогнозирования сквозной параллельной последовательности [29]. Часть наших работ адаптирована из модуля VisTR. Чтобы быть конкретным, мы интегрировали их модуль сопоставления последовательностей и сегментации экземпляров, чтобы контролировать и сегментировать экземпляры как завершенные. Сопоставление последовательности экземпляров выполняет сопоставление двудольного графа между последовательностью выходного экземпляра и последовательностью экземпляра наземной истинности и контролирует TT-SRN, чтобы TT-SRN изучает сходство между экземплярами [29]. Модуль сегментации последовательности экземпляров выполняет самоуправляемые трехмерные свертки, чтобы узнать сходство на уровне пикселей. Следовательно, существуют различные подходы к решению проблем сегментации на уровне экземпляра временной области. Здесь, в этой работе, мы предлагаем наш подход к решению проблемы сегментации экземпляра видео, поскольку мы рассматриваем его как прямой набор задач прогнозирования. Даже концепцию сегментации экземпляров видео можно классифицировать как новую задачу, в литературе исследователи рассматривают различные аналогичные проблемы, такие как сегментация экземпляров на уровне изображения, обнаружение видеообъектов, отслеживание видеообъектов и сегментация видеообъектов. Мы кратко опишем подобные проблемы следующим образом.

2.1. Сегментация экземпляра на уровне изображения

Сегментация экземпляров не только группирует пиксели в разные семантические классы, но и группирует их в разные экземпляры объектов [12]. Обычно используется двухэтапная парадигма, которая сначала генерирует предложения объектов с использованием сети предложений регионов (RPN), а затем прогнозирует ограничивающие рамки и маски объектов с использованием агрегированных функций RoI [12]. В нашем случае мы не только генерируем маски сегментации для отдельных лиц, но и объединяем их в видеопоследовательности.

2.2. Обнаружение видеообъектов

Обнаружение видеообъектов направлено на обнаружение объектов на видео, что впервые было предложено как часть визуальной задачи ImageNet [24]. Даже ассоциация и предоставление идентичности улучшают качество обнаружения, эта проблема ограничивается пространственно сохраненными метриками оценки для покадрового обнаружения и не требует совместного обнаружения и отслеживания объектов [31]. Однако в нашем случае мы стремимся к совместному обнаружению, сегментации и отслеживанию, в отличие от задачи обнаружения видеообъектов.

2.3. Отслеживание видеообъектов

Задача отслеживания видеообъектов обычно рассматривается как подходы к отслеживанию на основе обнаружения и без обнаружения. В алгоритмах отслеживания на основе обнаружения объекты совместно обнаруживаются и отслеживаются, так что часть отслеживания улучшает качество обнаружения, тогда как в подходах без обнаружения нам предоставляется начальная ограничивающая рамка и мы пытаемся отслеживать этот объект по кадрам видео [26, 31] . Поскольку подходы, основанные на обнаружении, аналогичны нашему случаю, для сегментации экземпляров видео требуются маски временной сегментации. Следовательно, в отличие от предыдущих фундаментальных задач компьютерного зрения, сегментация экземпляров видео требует междисциплинарных и агрегированных подходов.

2.4. Сегментация экземпляров видео

Поскольку задача сегментации экземпляра видео находится под наблюдением, она требует ориентированных на человека высококачественных аннотаций для ограничивающих рамок и масок двоичной сегментации с предопределенными категориями. Пусть Ci - категории объектов, принадлежащие набору данных D для i = 1,…, K, где K - количество уникальных категорий, включая фон в D. Затем пусть B ti j и S ti j - j-й ограничивающий прямоугольник. и двоичную маску для j th ∈ C1,…, CK объекта в видеокадре ti ∈ T, где T представляет количество кадров в данной видеопоследовательности. Предполагая, что на этапе вывода алгоритм VIS выдает N ∈ C1,…, гипотезу экземпляра CK, такую ​​что H ti Nj представляет прогноз для N-го j-го экземпляра и t-го времени, созданного VIS. Следовательно, H ti Nj включает оценку достоверности s ti j ∈ [0, 1] как вероятность идентификации экземпляра с заранее определенной категорией, ˆB ti j и ˆS ti j. Следовательно, мы пытаемся свести к минимуму аннотации, созданные человеком и выдвинутые гипотезы, поскольку для этого требуется быстрое и оптимальное обнаружение, отслеживание и оценки сегментации.

4. Результаты TT-SRN

Мы предлагаем сквозной модуль сегментации экземпляров видео на основе трансформатора с синусоидальными сетями представления (SRN), а именно TT-SRN, для решения задачи VIS. Наш метод TT-SRN рассматривает задачу VIS как прямой набор задач прогнозирования в одном состоянии, что позволяет нам агрегировать временную информацию с пространственной информацией. Набор функций видеокадра извлекается двойными преобразователями, которые затем передаются исходному преобразователю для создания последовательности предсказаний экземпляров. Эта созданная преобразователями информация на уровне экземпляра затем передается через модифицированные сети синусоидального представления для получения идентификаторов классов конечного уровня и ограничивающих рамок, а также трехмерные свертки с самообслуживанием для получения масок сегментации. По своему внутреннему механизму TT-SRN представляет собой естественную структуру, которая обрабатывает отслеживание и сегментацию посредством изучения подобия, что позволяет системе производить быстрый и точный набор прогнозов. Алгоритм сопоставления последовательности экземпляров адаптирован из [29] для отслеживания экземпляров в видеокадрах. TT-SRN обучается от начала до конца с глобальными потерями на основе наборов, которые вынуждают делать уникальные прогнозы через двустороннее сопоставление. Таким образом, общая сложность конвейера значительно снижается без ущерба для качества масок сегментации. Впервые проблема VIS решается без неявных архитектур CNN благодаря тому, что сдвоенные трансформаторы являются одним из самых быстрых подходов. Наш метод можно легко разделить на его подкомпоненты для создания отдельных масок экземпляров и ограничивающих рамок, которые сделают его унифицированным подходом для многих задач видения. В этом разделе TT-SRN разделен на его подмодули, и описаны подробности.

3.1. Близнецы-трансформеры

Недавно в статье [9] предложены близнецы, которые демонстрируют, что пространственно-ориентированные преобразователи зрения могут превзойти классические CNN [9]. Здесь мы интегрировали сеть Twins-SVT в наш случай для создания функций на уровне экземпляра. Их двойной трансформатор основан на сети пространственно разделимого самовнимания (SSSA), которая состоит из локально сгруппированного самовнимания (LSA) и глобального субдискретизированного внимания (GSA) [9]. Благодаря пространственно разделяемому модулю качество функций значительно увеличивается. В подразделах мы подробно описываем модуль SSSA.

3.1.1 Локально-сгруппированное самовнимание (LSA)

В LSA двухмерные карты функций разделены на подокна, которые позволяют сосредоточиться на себе внутри каждого подокна. Карты объектов разделены на подокна m x n, которые приводят к тому, что каждые 4 окна состоят из элементов HW mn, где H, W представляют размеры изображения. При разделении изображения на область размером m x n вычислительные затраты уменьшаются с O (H² * W² * d) до O (H² * W² / (m * n) * d), где d - это измерение собственного внимания. На этом этапе мы не имели никакого отношения к неперекрывающимся областям в окнах. Следовательно, здесь вступает в игру модуль GSA.

3.1.2 Глобальное подвыборочное внимание (GSA)

Поскольку нам нужна дальнейшая локализация в механизме самовнимания, требуется глобальное самовнимание, чтобы устанавливать связи в неперекрывающихся регионах. В модуле GSA один репрезентативный ключ в формациях из окон с локальным присутствием используется для вычисления глобального внимания. Однако с вычислением глобального внимания стоимость вычислений увеличится до O (H² * W² * d). Чтобы предотвратить это, локально обслуживаемые объекты подвергаются субвыборке с помощью среднего пула, глубинных сверток и регулярных поперечных сверток. Результаты показывают, что свертки с регулярными шагами работают лучше всего [9]. Математически модуль SSSA выполняет следующие вычисления.

для i = 1,…, m и j = 1,… n, где LSA обозначает локально сгруппированное самовнимание, GSA обозначает глобальное субдискретизированное внимание, FFN обозначает сеть с прямой связью, а LayerNorm обозначает уровень нормализации уровня [2]. Оба модуля внимания выполнялись в многоголовой манере.

3.2. Классические трансформеры

Классическая архитектура преобразователя с 6 уровнями кодировщика, 6 уровнями декодеров с активацией GELU [15] адаптирована для выполнения генерации запросов по экземплярам. Результатом работы классического преобразователя являются предложения экземпляров плюс дополнительные запросы без объектов. Использование преобразователя очень похоже на использование в модели обнаружения объектов DETR [7]. Во время обучения выполняется двустороннее сопоставление для наблюдения за моделью путем однозначного присвоения прогнозов с наземными истинами. Прогноз без совпадения должен давать предсказание класса «без объекта», поэтому количество запросов экземпляров должно быть больше, чем количество экземпляров в видеокадрах. По своей сути, преобразователь состоит из структуры кодировщика и декодера, которая обсуждается в следующих подразделах.

3.2.1 Пространственно-временное позиционное кодирование

Поскольку архитектура преобразователя инвариантна к перестановкам, пространственно-временное позиционное кодирование необходимо для моделирования точной информации о местоположении. Пространственно-временное позиционное кодирование основано на синусоидальных волнах и представляет собой трехмерную версию классического позиционного кодирования. Наше позиционное кодирование имеет 3 различных измерения: временное, горизонтальное и вертикальное. Пусть d - конечная размерность кодирования положения конкатенированного канала, тогда мы независимо использовали синусоидальные функции d / 3 с разными частотами следующим образом

где w_k = (1/10000) ^ (2 * k / (d / 3)), pos - позиция в этом измерении. Как и в случае обычного позиционного кодирования, эти трехмерные позиционные кодировки добавляются на вход.

3.2.2 Кодировщик трансформатора

Уровень кодировщика-преобразователя размером 6 адаптирован для изучения сходства по экземплярам, ​​которое позже будет распространено на уровень декодирования для создания запросов конечного уровня экземпляра. Извлеченные элементы из двойного трансформатора передаются в единственный сверточный слой с 256 выходными скрытыми размерами. Следовательно, входной сигнал преобразователя-кодировщика имеет форму R ^ (NxLxHxW), где N - размер пакета, L - скрытый размер, H и W - высота и ширина вывода одного сверточного слоя. Обратите внимание, что временной порядок сохраняется в соответствии с порядком ввода. Каждый уровень кодировщика, как обычно, выполняет многоглавый механизм самовнимания.

3.2.3 Трансформаторный декодер

Последовательность закодированных признаков затем проходит через уровень декодера преобразователя для создания последовательности предсказаний запроса экземпляра. На этом уровне последовательность обучаемых запросов экземпляров также передается на уровень декодера. Запросы экземпляра - это фиксированное количество вложений ввода, представляющее общее количество прогнозов экземпляра. Количество запросов экземпляров всегда больше, чем количество экземпляров в образе, чтобы быть в безопасности. Двустороннее сопоставление выполняет индивидуальное присваивание уникальным образом, представленные прогнозы называются «запросами без объектов». Например, предполагая, что мы производим прогноз экземпляра n_t в кадре t, пусть q будет размером общих запросов экземпляра, так что q ›n_t во всех кадрах.

3.3. Сети синусоидальных представлений

Сети синусоидальных представлений - это недавно предложенный в статье [25] метод обучения представлению. Синусоидальные слои состоят из полностью связанных слоев, уникальная инициализация которых представлена ​​в статье [25] с помощью синусоидального активационного слоя. Общая архитектура изображена на рисунке 2. В этой работе мы изменили их архитектуру для нашего случая, добавив внутренние выпадающие слои между синусоидальными слоями с конечной нелинейностью GELU [15] для создания конечных функций на уровне экземпляра. Эти конечные элементы затем распространяются на ветви классификации, обнаружения ограничивающей рамки и сегментации экземпляров. Мы поняли, что периодические активации для неявных нейронных представлений и продемонстрировали, что эти сети, получившие название сетей синусоидальных представлений или SIREN, идеально подходят для задач плотного прогнозирования. Наши исследования абляции демонстрируют, что периодические функции активации для конечных слоев прогнозирования подходят для задач плотного прогнозирования.

3.4. Соответствие последовательности экземпляров

Важный аспект TT-SRN, а именно сопоставление последовательностей экземпляров, адаптирован из статьи [29], чтобы однозначно назначать предсказания экземпляров с наземными истинами через двустороннее сопоставление для наблюдения за моделью. Кроме того, этот модуль позволяет нам сделать вывод о точном порядке предсказанных экземпляров, что позже позволяет отслеживать экземпляры по видео. При потере согласования учитываются как предсказания класса, так и сходство предсказанных и наземных истин [7]. Пусть y обозначает набор объектов основных ящиков истинности, а y˜ = ˜y ^ N_i = 1 - набор из N предсказаний. Наша потеря дает оптимальное двустороннее соответствие между предсказаниями и истинным положением вещей. Чтобы вычислить двустороннее соответствие между двумя наборами, вычисляется следующая минимизация.

где L_match (y_i, y_σ˜ (i)) - это стоимость сопоставления по каждому экземпляру между наземной истинностью и предсказанием. Эта проблема присваивания вычисляется с помощью венгерского метода, который представляет собой комбинаторный алгоритм оптимизации, который решает задачу присваивания за полиномиальное время [7]. Процедура сопоставления учитывает как предсказания класса, так и сходство предсказанных и наземных блоков истинности. Пусть каждый элемент i аннотации обозначен y_i = (c_i, b_i), где ci target class, а bi - вектор, обозначающий нормализованные координаты основной истины. Эти координаты организованы как центр, высота и ширина, и они относятся к размеру изображения. Затем для прогноза с индексом σ (i) пусть ˜ p_σ (i) (ci) обозначает вероятность класса, а ˜ b_σ (i) - прогнозируемый прямоугольник. Следовательно, мы можем определить Lmatch (y_i, y_σ˜ (i)) следующим образом.

Эта процедура контролирует модель и играет важную роль в процессе эвристического присваивания. В классических задачах обнаружения объектов или сегментации экземпляров (например, Mask RCNN [13]) эти процедуры являются аналогами предложения сопоставления или привязками к наземным истинам. Существенно отличаясь от классических подходов, двудольное сопоставление присваивает однозначно. На этом этапе мы присвоили предсказаниям их основную истину, поэтому нам нужно вычислить потери, в нашем случае Hungarian Loss для всех совпавших пар. Учитывая однозначное присвоение, Hungarian Loss вычисляет потерю как линейную комбинацию отрицательной логарифмической вероятности для предсказания класса, блока и потери маски для последовательности экземпляров, как показано ниже.

где σ˜ оптимальное назначение, вычисленное ранее. Эта потеря используется для непрерывного обучения модели. Далее нам нужно определить L_box и L_mask. L_box вычисляется аналогично DETR [7] следующим образом.

где λ_IoU и λ_L1 - гиперпараметры. Обратите внимание, что потери нормируются по количеству экземпляров внутри кадра.

3.5. Сегментация последовательности экземпляров

Другой важный аспект TT-SRN, а именно модуль Instance Sequence Segmentation, адаптирован из статьи [29] для создания масок конечной сегментации. Внутри этот модуль накапливает экземпляры признаков кадров, после чего выполняется сегментация этих накопленных признаков. Для каждого кадра прогнозы экземпляров, собранные слоем оконечного декодера преобразователя, и функции, закодированные преобразователем, собранные слоем оконечного кодера преобразователя, проходят через модуль самовнимания. Затем эти обслуживаемые функции объединяются с функциями, собранными двойным трансформатором, и закодированными функциями, генерируемыми конечным энкодером трансформатора. Эта процедура очень похожа на VisTR [29] и DETR [7]. Затем объекты уровня экземпляра с разными размерами загружаются в деформируемый сверточный слой [10], который дополняет местоположения пространственной выборки в модулях дополнительными смещениями и изучает смещения от целевых задач без дополнительного надзора [10]. Затем объединенные карты, имеющие форму R ^ (1xCxTxtHxW), где C - размер канала, T - временное измерение, H и W - пространственные размеры пространственных объектов, загружаются в трехмерный сверточный слой с групповой нормализацией [30] и Нелинейность ГЭЛУ [15]. В конечном слое единственный сверточный слой с 1 размером выходного канала помещен для получения масок сегментации. Наконец, нам нужно определить Lmask, чтобы завершить функцию потерь. L_mask вычисляется путем объединения кости [22] и потери фокуса [18] следующим образом.

использованная литература

В этом разделе мы демонстрируем наши результаты на наборе данных YouTubeVIS [31]. YouTube-VIS - это большой и масштабируемый набор данных, состоящий из 2883 видео YouTube с высоким разрешением, 2238 обучающих видео, 302 проверочных видео и 343 тестовых видео. Набор меток категории состоит из 40 общих объектов, таких как люди, животные и транспортные средства, в общей сложности 4883 уникальных видеоэкземпляра, которые дают 131 тысячу высококачественных аннотаций, ориентированных на человека. Поскольку оценка набора тестов закрыта, результаты оценки основываются на наборе проверки. 4.1.

4.1 Подробная информация о реализации

Мы унаследовали гиперпараметры, используемые в сдвоенных трансформаторах [9] для первой ступени ТТ-СРН. Следовательно, размер встраивания выбран равным 64, размер фрагмента 4, размер локального фрагмента 7 и глубина равны 1. В том же порядке гиперпараметры второй ступени двойного трансформатора равны 128, 2, 7, 1. Для третий этап, 256, 2, 7, 5 выбираются гиперпараметрами третьего этапа. На заключительном этапе размер встраивания равен 512, размер фрагмента - 2, размер локального фрагмента - 7, а глубина - 4. Здесь глубина означает количество блоков трансформатора, описанных в разделе о двойном трансформаторе. См. Рисунок ??. Скрытый размер одного сверточного слоя выбран равным 256. В классическом преобразователе имеется 6 слоев кодировщика и 6 слоев декодирования с размером нескольких головок 8. Внутренняя активация блока преобразователя - GELU [15] во всех кодировщиках- декодеры. На этапе SRN вероятность отсева выбрана равной 0,2. Все уровни SRN инициализируются с помощью специальной схемы инициализации, описанной в статье [25]. Тогда наибольшее число длины аннотированного видео в YouTube-VIS равно 36 [31], мы выбираем это значение в качестве длины входного видео. Таким образом, для связывания разных клипов из одного видео не требуется постобработка. Таким образом, нашу модель можно обучать от начала до конца за один этап. Поскольку наша модель предсказывает 10 объектов на видеокадр, мы устанавливаем номер запроса на 360. TT-SRN реализуется через PyTorch 1.8 [23]. Благодаря простым строительным блокам TT-SRN можно обобщать и масштабировать для других структур и задач видения. Мы также предоставляем отдельную версию TT-SRN для сегментации экземпляров и обнаружения объектов на странице нашего проекта.

На этапе обучения мы оптимизировали все слои с помощью AdamW [21], начиная со скоростью обучения 1e-4 и уменьшаясь на 0,1 за 3 эпохи. TT-SRN обучается с 18 эпохами и размером пакета, выбранным равным 16. Классические веса трансформатора инициализируются из DETR [7], который предварительно обучен в COCO [19]. Все видеокадры нормализованы со средним значением ImageNet и значениями стандартного отклонения для каждого канала. Затем размер всех видеокадров изменяется до 300 x 540, чтобы соответствовать графическому процессору. В качестве увеличения видеоданных мы использовали только случайный переворот по горизонтали с вероятностью 0,5. TT-SRN обучается на одном графическом процессоре Tesla K80 с 8 ГБ оперативной памяти в течение 5 дней.

На этапе вывода изменений в архитектуре TT-SRN нет. Следовательно, формы обучения и вывода нашей модели полностью совпадают. Кроме того, для связывания экземпляров в видеокадрах не требуется ручная пост-обработка. Мы устанавливаем порог для сохраняемых экземпляров, оценка которых выше определенного порога, чтобы получить конечный результат. Мы установили этот порог равным 0,6. Были некоторые экземпляры, идентифицированные как разные классы в видеокадрах. В то время мы используем наиболее часто прогнозируемую категорию.

4.2 Оценочные показатели

Оценки выполняются с использованием стандартных метрик оценки в сегментации экземпляров изображений с модификациями, адаптированными к нашей новой задаче [31]. В частности, метрики 8 - это средняя точность (AP) и средний отзыв (AR) [31] при различных условиях. AP определяется как площадь под кривой точного отзыва [31]. Оценка достоверности используется для построения кривой. AP усредняется по пороговым значениям множественного пересечения по объединению (IoU) [31]. Средний отзыв описывает удвоенную площадь под кривой «Напоминание-IoU». В качестве условных AP и AR мы следуем процедуре оценки COCO, поскольку она требует 10 пороговых значений IoU от 50% до 95% на шаге 5%. Поскольку мы находимся в области видео, нам необходимо включить временную согласованность в наши оценки, например, даже модель дает успешные сегменты, если она не может отслеживать экземпляры, это указывает на плохую производительность. Следовательно, наше вычисление IoU отличается от сегментации экземпляра изображения, потому что каждый экземпляр содержит последовательность масок [31], поэтому вычисление IoU расширяется до пакета видеокадров путем накопления IoU по видеокадрам. Вычисление IoU происходит следующим образом. Здесь m ^ i_t представляет собой основную истину, а m˜ ^ i_t представляет гипотезу.

4.3 Основные результаты

5. Заключение

В этой работе мы предложили сквозной модуль сегментации экземпляров видео на основе трансформатора с сетями синусоидального представления (SRN), а именно TT-SRN, для решения задачи сегментации экземпляров видео. TT-SRN рассматривает задачу VIS как задачу прогнозирования прямой последовательности в одном состоянии, что позволяет нам агрегировать временную информацию с пространственной информацией. Для получения высококачественных функций, извлеченных из видеокадров, мы использовали двойной трансформатор. Классический преобразователь используется для создания последовательности предсказаний экземпляров, которые затем проходят через модифицированные сети синусоидального представления для получения конечных результатов. TT-SRN - это естественная парадигма, которая обрабатывает отслеживание посредством изучения подобия, что позволяет системе производить быстрый и точный набор прогнозов. TT-SRN обучается от начала до конца с глобальными потерями на основе наборов, которые вынуждают делать уникальные прогнозы через двустороннее сопоставление, что приводит к снижению общей сложности конвейера без ущерба для качества масок сегментации. Впервые проблема VIS решается без использования традиционных архитектур CNN благодаря двойным трансформаторам, которые являются одним из самых быстрых подходов. Наш метод можно легко разделить на его подкомпоненты для создания отдельных масок экземпляров и ограничивающих рамок, которые сделают его унифицированным подходом для многих задач видения. Мы считаем, что сегментация экземпляров видео является важной задачей в области понимания видео и внесет новшества в сообщество исследователей компьютерного зрения. Страница нашего проекта находится по адресу «https://github.com/cankocagil/» TT-SRN, а отдельная версия TT-SRN для обнаружения / сегментации находится по адресу «https://github.com/cankocagil/» TT-SRN - - Обнаружение объектов.

[1] А. Атар, С. Махадеван, А. Осеп, Л. Леал-Тайксе и Б. Лейбе. Stem-seg: пространственно-временные вложения, например сегментация в видео, 2020.

Введение

[2] Дж. Л. Ба, Дж. Р. Кирос и Г. Э. Хинтон. Нормализация слоев, 2016.

[3] Г. Бертасиус и Л. Торресани. Классификация, сегментирование и отслеживание экземпляров объектов на видео с распространением по маске, 2020.

[4] Г. Бертасиус, Л. Торресани и Дж. Ши. Обнаружение объектов на видео с помощью пространственно-временных сетей дискретизации, 2018.

[5] А. Бьюли, З. Ге, Л. Отт, Ф. Рамос и Б. Апкрофт. Простое отслеживание онлайн и в реальном времени. Международная конференция IEEE по обработке изображений (ICIP), 2016 г., сентябрь 2016 г.

[6] Дж. Цао, Р. М. Анвер, Х. Чолаккал, Ф. С. Хан, Ю. Панг и Л. Шао. Sipmask: Сохранение пространственной информации для быстрой сегментации изображений и видео, 2020.

[7] Н. Карион, Ф. Масса, Г. Синнаев, Н. Усуньер, А. Кириллов, С. Загоруйко. Сквозное обнаружение объектов с помощью трансформаторов, 2020.

[8] К. Чен, Дж. Панг, Дж. Ван, Ю. Сюн, Х. Ли, С. Сан, В. Фэн, З. Лю, Дж. Ши, В. Оуян, С. К. Лой и Д. Линь . Гибридный каскад задач для сегментации инстансов, 2019.

[9] X. Чу, Z. Tian, ​​Y. Wang, B. Zhang, H. Ren, X. Wei, H. Xia и C. Shen. Близнецы: новый взгляд на дизайн пространственного внимания в трансформерах зрения, 2021 год.

[10] Дж. Дай, Х. Ци, Ю. Сюн, Ю. Ли, Г. Чжан, Х. Ху и Ю. Вэй. Деформируемые сверточные сети, 2017.

[11] А. Досовицкий, Л. Бейер, А. Колесников, Д. Вайссенборн, X. Жай, Т. Унтертинер, М. Дехгани, М. Миндерер, Г. Хейголд, С. Гелли и др. Изображение лучше 16x16 слов: преобразователи для распознавания изображений в масштабе. Препринт arXiv arXiv: 2010.11929, 2020.

[12] Б. Харихаран, П. Арбелаез, Р. Гиршик и Дж. Малик. Одновременное обнаружение и сегментация, 2014.

[13] К. Хе, Г. Гкиоксари, П. Доллар и Р. Гиршик. Маска р-спн, ´ 2018.

[14] К. Хе, Х. Чжан, С. Рен, Дж. Сунь. Глубокое остаточное обучение для распознавания изображений, 2015.

[15] Д. Хендрикс, К. Гимпель. Погрешность гаусса, линейные единицы (гели), 2020.

[16] К.-К. Lin, Y. Hung, R. Feris и L. He. Отслеживание сегментации видеоэкземпляра с измененной архитектурой vae. В материалах конференции IEEE / CVF по компьютерному зрению и распознаванию образов (CVPR), июнь 2020 г.

[17] Т.-Ю. Лин, П. Доллар, Р. Гиршик, К. Хе, Б. Харихаран и ´ С. Белонги. Сетевые пирамиды для обнаружения объектов, 2017.

[18] Т.-Ю. Лин, П. Гойал, Р. Гиршик, К. Хе и П. Доллар. Потеря фокуса при обнаружении плотных объектов, 2018.

[19] Т.-Ю. Лин, М. Мэйр, С. Белонги, Л. Бурдев, Р. Гиршик, Дж. Хейс, П. Перона, Д. Раманан, К. Л. Зитник и П. Доллар. ´ Microsoft coco: Общие объекты в контексте, 2015.

[20] З. Лю, Ю. Линь, Ю. Цао, Х. Ху, Ю. Вэй, З. Чжан, С. Линь, Б. Го. Преобразователь Swin: преобразователь иерархического видения с использованием смещенных окон. Препринт arXiv arXiv: 2103.14030, 2021.

[21] И. Лощилов, Ф. Хаттер. Регуляризация несвязанного спада веса, 2019.

[22] Ф. Миллетари, Н. Наваб, С.-А. Ахмади. V-net: Полностью сверточные нейронные сети для объемной сегментации медицинских изображений, 2016.

[23] А. Пашке, С. Гросс, Ф. Масса, А. Лерер, Дж. Брэдбери, Г. Чанан, Т. Киллин, З. Лин, Н. Гимельшейн, Л. Антига, А. Десмезон, А. Копф , Э. Янг, З. Де Вито, М. Райсон, ¨ А. Теджани, С. Чиламкурти, Б. Штайнер, Л. Фанг, Дж. Бай и С. Чинтала. Pytorch: высокопроизводительная библиотека глубокого обучения императивного стиля, 2019 г.

[24] О. Русаковский, Дж. Дэн, Х. Су, Дж. Краузе, С. Сатиш, С. Ма, З. Хуанг, А. Карпати, А. Хосла, М. Бернштейн, А. С. Берг и Л. Фей. -Fei. Imagenet - крупномасштабная задача визуального распознавания, 2015 г.

[25] В. Зицманн, Дж. Н. П. Мартель, А. В. Бергман, Д. Б. Линделл, Г. Ветцштейн. Неявные нейронные представления с периодическими функциями активации, 2020.

[26] Дж. Сон, М. Бэк, М. Чо и Б. Хан. Отслеживание множества объектов с помощью четверных сверточных нейронных сетей. В конференции IEEE 2017 года по компьютерному зрению и распознаванию образов (CVPR), страницы 3786–3795, 2017.

[27] Х. Туврон, М. Корд, М. Дуз, Ф. Масса, А. Саблейроллес и Х. Джегу. Тренировка эффективных преобразователей изображений и дистилляции посредством внимания. Препринт arXiv arXiv: 2012.12877, 2020.

[28] А. Васвани, Н. Шазир, Н. Пармар, Дж. Ушкорейт, Л. Джонс, А. Н. Гомес, Л. Кайзер и И. Полосухин. Внимание - это все, что вам нужно, 2017 год.

[29] Я. Ван, З. Сюй, X. Ван, Ч. Шен, Б. Ченг, Х. Шен и Х. Ся. Сквозная сегментация инстансов видео с трансформаторами, 2021 г.

[30] Ю. Ву и К. Хе. Групповая нормализация, 2018.

[31] Л. Ян, Ю. Фань, Н. Сюй. Сегментация экземпляров видео, 2019.

TT-SRN: платформа сегментации экземпляров видео на основе трансформатора