Вслед за предыдущим постом о двухпотоковых сверточных сетях для распознавания активности я напишу резюме исследовательской работы по другой статье в той же области, Описание видео с помощью использования временной структуры. Я напишу. снова используйте ту же методологию разбивки исследовательской работы на составляющие ее идеи, что я делал ранее. Итак, приступим!! :)

1) Какую проблему пытается решить вся эта область?

Ответ Мы пытаемся распознать, какие действия присутствуют в видео (танцы, пение, ходьба и т. д.). Следуя большим успехам глубокого обучения на изображениях, мы хотим воспроизвести то же самое на видео. Однако, похоже, это не тот случай. Видео можно рассматривать как набор 2D-изображений, но между этими 2D-изображениями происходит большой поток информации, который необходимо учитывать. Есть много приложений. Каждую минуту на Youtube загружается видео, и автоматический генератор описания видео может помочь в широком распространении видео или может быть удручающим. Отличный обзор поля дан в блоге Qure.AI.

2) Обобщить фон.

Ответ Это первый подход, когда мы предложили сквозную модель обучения от интенсивности пикселей. Он также черпал вдохновение из работы Venugopal et al по созданию подписей к статическим изображениям с использованием нейронных сетей. Эта модель, однако, игнорирует временную характеристику, присутствующую в видео. Авторы также первыми использовали модель 3D-CNN вместе с моделью CNN.

3) Какой подход используют авторы?

Ответ Чтобы учесть временную (или движущуюся во времени) особенность видео, авторы отклонились от нормы и использовали пространственно-временную 3D-CNN. В отличие от более ранних подходов, когда входными изображениями были кадры видео, этот подход предполагает непосредственное использование всего видео в качестве входных данных, что делает этот подход сквозным обучением. Авторы предложили общую структуру кодировщик-декодер.

Авторы постарались охватить как глобальную, так и локальную временную структуру, присутствующую в видео. Глобальные временные признаки — это признаки, извлеченные из действий, присутствующих в полном видео. Например, в видео баскетбольного матча есть действие баскетбола, и эти функции будут глобальными. В этой игре есть прыжки, ныряние, бег и т. д., которые локализованы для определенных кадров видео. Для выполнения распознавания действий необходимо учитывать оба эти вида признаков.

Модель должна быть достаточно мощной, чтобы интуитивно понимать, что все отдельные действия, происходящие в баскетбольном видео, складываются в баскетбольную игру. Для этого авторы использовали модель временного внимания. Внимание похоже на сосредоточение. В видео может быть много действий, но нам нужно сосредоточиться на самом заметном действии, происходящем в нем.

Для извлечения локальных особенностей мы извлекаем пространственно-временные характеристики объекта, присутствующего в определенном месте на изображении. Пространственно-временные характеристики говорят нам, где находится объект в определенный момент времени в кадре. Для этой цели мы используем фреймворк кодер-декодер.

Фреймворк кодировщик-декодер

В этой структуре мы используем две функции, Кодировщик и Декодер, для выполнения преобразований данных.

Например, возьмем задачу синтеза изображений (цель генеративно-состязательных сетей). Здесь мы берем случайный вектор и медленно сходим, пока он не будет больше похож на изображение, которое мы хотим создать. В кодировщике изображение проходит через множество преобразований (функций), пока среднеквадратическая ошибка между изображением и случайным вектором в начале.

Эта задача может быть далее разложена на кодирование и декодирование.

Исходное изображение сворачивается, необходимые функции извлекаются и выводятся в виде низкоразмерного векторного представления. Это можно рассматривать как сопоставление входных данных x с набором V.

Этот V снова помещается в другое отображение, известное как функция декодера, которая преобразует это низкоразмерное представление в размер исходного ввода. Выход y создается декодером на входе V.

Установив контекст представления Encoder-Decoder, мы можем резюмировать структуру Encoder-Decoder следующим образом:

При распознавании действий пространственные характеристики, т. е. расположение объектов на изображении, извлекаются через кодировщик с помощью трехмерной CNN. Видеокадры вводятся в 3D CNN, которая выполняет свертку и извлечение этих функций. Для временных функций мы используем RNN (рекуррентную нейронную сеть). Как было сказано ранее, основным отличием распознавания действий в видео от изображений является наличие долгосрочной временной информации, проходящей через все видео. Это дает нам ценную подсказку. Одной из сетей, которая очень хорошо справляется с этой задачей, являются LSTM (модели с долговременной кратковременной памятью). [Само название дает нам подсказку].

Временная информация из последовательностей извлекается, и мы объединяем ее с пространственными характеристиками. Оба эти фактора вместе дают нам локальные особенности.

Теперь мы опишем методы, используемые авторами для извлечения глобальных признаков. Один из интуитивно понятных подходов состоит в том, чтобы усреднить все локальные временные особенности, присутствующие в видео. Однако это плохой подход, как мы уже объясняли в примере с баскетбольным видео.

Напротив, авторы предложили подход, позволяющий рассматривать только подмножество кадров и использовать стратегию взвешенного усреднения. Каждому кадру, принадлежащему подмножеству кадров, динамически присваивается вес. Некоторые функции, которые являются более важными, получают более высокий вес. Например, видео может содержать танцы в течение первых 5 секунд и пение в течение последних 2 секунд. В первые 5 секунд наша модель внимания фокусируется на временном аспекте танца, а в последние 2 секунды фокус переключается на пение. Это взвешивание можно математически описать как:

Альфа-член — это релевантность i временной функции во входном видео. Предыдущий (t-1)-йальфа-терм вводится в LSTM, который возвращает ненормализованную оценку релевантности, которую необходимо нормализовать.

4) Какую методологию использовали авторы?

Ответ Авторы использовали предварительно обработанную версию наборов данных Youtube2Text и DVS. Они оба имеют более 10000 образцов видео и их соответствующее описание. В Youtube2Text есть 15903 уникальных образца и 17609 в наборах данных DVS. Из-за большой вычислительной сложности мы выбираем только первые 240 кадров видео. Из них выбираются 26 равноотстоящих кадров и подаются в нашу сеть. Мы используем CNN GoogLeNet в качестве кодировщика, а в качестве декодера используем LSTM. GoogLeNet — это глубокая архитектура, которая произвела революцию в использовании более глубоких сетей для выполнения задач классификации изображений.

Чтобы эмпирически понять, помогает ли извлечение глобальных и локальных временных признаков в задаче распознавания действий, авторы используют 4 разных типа сетей:

  1. Обычная сеть кодировщик-декодер.
  2. Сеть кодировщик-декодер + локальные временные особенности.
  3. Сеть кодировщик-декодер + глобальные временные функции.
  4. Сеть кодировщик-декодер + локальные и глобальные функции.

Мы используем метрики нейронного машинного перевода, такие как Bleu, Meteor и Cider, чтобы сравнить описания, сгенерированные вышеуказанными 4 сетями.

Мы видим, что модель «Локальные + глобальные функции» выигрывает во всех случаях.

6. Заключение

Ответ Авторы успешно доказали, что сочетание извлечения локальных и глобальных временных признаков в сочетании с трехмерной моделью CNN дает нам отличные результаты. Результаты в наборе данных DVS можно улучшить с помощью более качественных наборов данных, таких как Flickr, и набора данных подписей к изображениям, таких как MS Coco.

Я надеюсь, что моя статья была понятна, объясняя статью простыми шагами. Оставьте свои отзывы и предложения ниже.