Архитектура трансформатора трансформирует компьютерное зрение. Представленный в 2020 году Vision Transformer (ViT) глобально соединяет участки в пространственном и временном измерениях и в значительной степени заменил сверточные нейронные сети (CNN) в качестве средства моделирования для исследователей в этой области.

В новом документе Video Swin Transformer исследовательская группа из Microsoft Research Asia, Университета науки и технологий Китая, Университета науки и технологий Хуачжун и Университета Цинхуа использует преимущества пространственно-временной локальности видео. предложить базовую архитектуру с чистым преобразователем для распознавания видео, которая приводит к лучшему компромиссу между скоростью и точностью и обеспечивает самую современную производительность в широком диапазоне тестов распознавания видео.

Большой успех современных преобразователей изображений вдохновил сообщество компьютерного зрения на разработку архитектур на основе преобразователей для задач распознавания на основе видео. Примеры включают в себя февральскую сеть Video Transformer Network (VTN), которая добавила кодировщик временного внимания поверх предварительно обученного ViT для повышения производительности; и обученный с нуля Multiscale Vision Transformer (MViT) Эйприл, который сократил объем вычислений за счет объединения внимания для пространственно-временного моделирования. Хотя такие модели основаны на глобальных модулях самовнимания, исследователи Video Swin Transformer заявляют, что их исследование является первым исследованием смещений пространственно-временной локальности, и что этот подход превосходит характеристики предыдущих глобальных моделей, основанных на самовнимании.

Предлагаемый Video Swin Transformer строго следует иерархической архитектуре March Swin Transformer для распознавания изображений, которая состоит из четырех этапов и выполняет двукратную пространственную понижающую дискретизацию в слое слияния патчей на каждом этапе. Основным компонентом новой архитектуры является блок Video Swin Transformer, который состоит из модуля многоголового самовнимания (MSA) на основе трехмерного сдвинутого окна, за которым следует сеть с прямой связью.

Видео имеют временное измерение, которого нет в изображениях, поэтому для них требуется гораздо большее количество токенов. Это приводит к огромным нагрузкам на вычисления и память при использовании глобального модуля самовнимания. Чтобы уменьшить эти вычислительные затраты, команда ввела в модуль самовнимания индуктивное смещение по местности. Они также расширили механизм сдвига 2D-окна Swin Transformer на 3D-окна, чтобы обеспечить межоконные соединения, сохранив при этом эффективное вычисление неперекрывающегося самовнимания на основе окон.

Команда сравнила предложенный ими Video Swin Transformer с различными современными архитектурными магистралями на основе свертки и трансформатора на наборах данных Kinetics-400, Kinetics-600 и Something-Something v2.

Video Swin Transformer достиг первой точности 84,9 на Kinetics-400, 86,1 максимальной точности на Kinetics-600 с ∼20 раз меньше данных предварительного обучения и ∼3x меньшего размера модели, и 69,6 максимальной точности на Something-Something v2. Результаты демонстрируют превосходную производительность предложенного подхода смещения пространственно-временной локальности по сравнению с методами глобального самовнимания и другими преобразователями зрения при решении задач распознавания видео.

Код доступен в проекте GitHub. Статья Video Swin Transformer находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен, Чейн Чжан

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.