Zero-Shot VideoCLIP от Facebook и CMU превосходит полностью контролируемые методы SOTA для видео-текста…

Предварительно обученные большие языковые модели произвели революцию в области исследований обработки естественного языка (НЛП), достигнув высочайшего уровня производительности и обеспечив широкое и эффективное развертывание во многих реальных приложениях. Однако одним из основных недостатков таких моделей является то, что они требуют аннотированных данных для конкретных задач и тонкой настройки для каждой конечной задачи, что может потребовать много времени и ресурсов.

В статье VideoCLIP: Contrastive Pre-Training for Zero-Shot Video-Text Understanding исследовательская группа из Facebook AI и Университета Карнеги-Меллона представляет VideoCLIP, контрастный подход для предварительного обучения унифицированной модели для нулевого кадра. понимание видео и текста без необходимости использования аннотированных данных для последующих задач.

Команда резюмирует основные результаты своего исследования следующим образом:

Мы предлагаем предварительно обучить унифицированную модель, которая способна без выстрела передавать несколько конечных задач для понимания видео-текста, даже превосходя полностью контролируемые методы в некоторых случаях.
Мы представляем два новых метода для улучшения обучения мелкозернистым ассоциациям видеотекста.

Эта работа фокусируется на предварительном обучении для передачи нулевого кадра задачам понимания видео-текста, с предлагаемым VideoCLIP, разработанным для предварительного обучения унифицированного представления видео-текста. Для этого он изучает мелкозернистые ассоциации между парами видео и текста в преобразователе, используя контрастирующую цель для вычисления цели обучения. В документе определены два новых аспекта этого процесса обучения: для положительных пар он использует видео и текстовые клипы, которые частично временно перекрываются, вместо того, чтобы обеспечивать строгое перекрытие временных меток начала и окончания; а для отрицательных пар используется метод выборки на основе поиска, который использует видеокластеры для формирования пакетов с взаимно более сложными видео.

Предлагаемый подход сначала улучшает ассоциацию видео и текста с разной длиной последовательности за счет предварительного обучения с перекрывающимися во времени парами видео и текстовых клипов разной длины, что приводит к значительному увеличению качества и количества выравнивания видео-текста.

Затем метод изучает мелкозернистые сходства видео-текста на основе контрастной потери для сбора (неявно) более сложных отрицательных пар, используя метод предварительного обучения с расширенным извлечением для извлечения кластера видео с похожими шаблонами.

Для своего эмпирического исследования исследователи использовали общедоступный набор данных HowTo100M для предварительного обучения, а затем применили модель к нулевой передаче без какой-либо тонкой настройки меток целевых наборов данных. Модель оценивалась по разнообразному набору задач: поиск текста и видео, ответы на видео-вопросы (VideoQA), локализация действий и сегментация.

В задаче извлечения текста и видео в крупномасштабном наборе видеоданных YouCook2 по кулинарии VideoCLIP превзошел все базовые методы нулевого кадра и даже превзошел полностью контролируемое предварительное обучение плюс методы точной настройки. В задаче VideoQA VideoCLIP превзошел большинство контролируемых методов и после точной настройки показал наилучшую общую производительность. VideoCLIP также продемонстрировал впечатляющую производительность в задачах локализации и сегментации действий, превзойдя даже контролируемые подходы, в которых используются метки, аннотированные человеком.

В целом исследование показывает, что предлагаемый VideoCLIP может превзойти предыдущие подходы по множеству задач без какого-либо контроля над наборами данных ниже по потоку, а в некоторых сценариях является конкурентоспособным или лучше, чем методы, использующие полный контроль.

Исследователи открыли исходный код кода VideoCLIP для проекта GitHub. Статья VideoCLIP: Contrastive Pre-Training for Zero-Shot Video-Text Understanding находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

Zero-Shot VideoCLIP от Facebook и CMU превосходит полностью контролируемые методы SOTA для видео-текста…

Вопросы по теме