За последние несколько лет исследования компьютерного зрения (CV), основанные на глубоком обучении, достигли впечатляющих успехов в классификации видеоклипов, взятых из Интернета, и анализе действий человека в них. Такие задачи на основе видео являются сложными, поскольку они требуют понимания взаимодействий между людьми, объектами и другим контентом и контекстом в данной сцене, а также рассуждений в течение длительных временных интервалов. Успешная модель CV в этой области должна улавливать как пространственные, так и долгосрочные временные взаимодействия, а также быть достаточно «умной», чтобы рассуждать на основе своих наблюдений.

В статье Структурированные модели унифицированного графа для понимания видео исследовательская группа Google предлагает нейронную сеть с графом передачи сообщений (MPNN), которая может явно моделировать эти пространственно-временные отношения, используя либо неявно (под наблюдением) или явно (без наблюдения) захваченные представления объектов и обобщение предыдущих структурированных моделей для понимания видео.

В статье Google Research Структурированные модели унифицированного графа для понимания видео основное внимание уделяется распознаванию пространственно-временных действий и синтаксическому анализу графа видеосцены, что требует рассуждений о взаимодействиях между актерами, объектами и их средой как в пространстве, так и во времени. Поскольку видео представляет собой сигнал большой размерности, невозможно обучить большие сверточные сети обучению на основе наборов видеоданных. Вместо этого в предыдущей работе были предложены модели с графической структурой для решения этой проблемы. Некоторые из этих исследований моделировали только пространственные отношения в видеороликах, игнорируя взаимодействия, которые могут развиваться с течением времени, в то время как другие исследования принимали во внимание долгосрочные временные взаимодействия, но не могли зафиксировать пространственные отношения. Хотя в некоторых исследованиях моделировались пространственно-временные взаимодействия в пределах ключевого кадра, эти подходы требуют дополнительного контроля для явного представления объектов.

Предлагаемый метод MPNN направлен на построение структурированных представлений видео путем представления их в виде графа актеров, объектов и контекстных элементов в сцене. MPNN выполняет когерентное моделирование как пространственных, так и временных взаимодействий и использует распознавание действий и предсказание графа сцены, чтобы понять взаимодействия между элементами на графе.

MPNN - это гибкая модель, которая может работать с ориентированным или неориентированным графом. Его вывод состоит из фазы передачи сообщения и фазы финального считывания. На этапе передачи сообщений сообщения сначала вычисляются с применением пространственных и временных функций передачи сообщений. Затем функция обновления объединяет полученные сообщения для обновления скрытого состояния. Интуитивно понятно, что функция обновления обновляется путем агрегирования сообщений, переданных от ее соседей. Наконец, функция считывания использует обновленные характеристики узлов для классификации интересующих задач.

Пространственные связи включают отношения между актерами, объектами и контекстом сцены. MPNN моделирует контекст сцены, учитывая особенности каждой пространственной позиции на карте признаков. Исследователи также добавляют неявную объектную модель, позволяющую сети кодировать информацию о сцене и соответствующих объектах без какого-либо дополнительного наблюдения. Также возможно дополнить контекстные узлы явным представлением объекта путем вычисления предложений объекта, не зависящего от класса, с помощью сети предложений региона (RPN).

Команда отмечает, что понимание действий часто требует рассуждений об акторах, которые больше не видны в текущем кадре, что требует больших временных контекстов. MPNN моделирует временные взаимодействия, соединяя узлы переднего плана в ключевом кадре со всеми другими узлами переднего плана в соседних ключевых кадрах. Устанавливая частоту дискретизации не меньше единицы, можно рассматривать более широкий временной интервал более эффективным с вычислительной точки зрения способом для сквозного обучения всей модели. Исследователи объясняют, что, поскольку каждый узел функции переднего плана представляет собой пространственно-временную характеристику, вычисляемую 3D CNN, выбор соседних ключевых кадров может привести к захвату избыточной информации через временные связи.

Исследователи оценили MPNN по задачам классификации графов сцены (SGCls), классификации предикатов (PredCls) и пространственно-временного обнаружения действий. Они использовали набор данных Action Genome для классификации и прогнозирования графов видеосцен, а также наборы данных AVA и UCF101-24 для пространственно-временного распознавания действий.

В классификации графа видеосцены предложенная пространственно-временная модель структурированного графа значительно улучшилась по сравнению с базовым уровнем SlowFast-ResNet 50 3D на 4,9 и 4,7 балла для R @ 20 и R @ 50 для SGCls соответственно. Улучшения по сравнению с PreCI были менее выраженными, поскольку задача проще, оставляя меньше возможностей для улучшения.

При обнаружении пространственно-временного действия в наборах данных AVA предложенная модель продемонстрировала существенные улучшения с базовой базовой линией магистрали 3D ResNet 50 или ResNet 101. На UCF101–24 модель также превзошла все другие подходы.

В целом, исследователи подтвердили способность своей новой структуры нейронной сети с пространственно-временным графом явно моделировать как пространственные, так и временные взаимодействия, достигая самых современных результатов по двум разным задачам в трех наборах данных.

Статья Структурированные модели унифицированного графа для понимания видео находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.