В этой статье используется мягкое внимание для распознавания действий. В [1] для генерации подписи к изображениям предлагается обратить внимание на функцию Мягкое изображение. В этом посте представлена ​​идея жесткого внимания.

Предлагаемая идея довольно проста и понятна. Сначала отдельные видеокадры загружаются в GoogleNet для создания характеристик изображения (K x K x D). Каждое местоположение на карте характеристик K x K соответствует разному местоположению на исходном изображении. По сути, каждый вертикальный срез - это функция для одного местоположения изображения. Мягкое внимание - это средневзвешенное значение для этих функций из разных мест.

Взвешенные объекты (l x X) передаются в многослойный LSTM для прогнозирования действий.

В отличие от [1], где веса являются функцией как текущей функции, так и предыдущего скрытого состояния LSTM, в этой статье используется только скрытое состояние. Интересно узнать, почему опущены текущие функции.

Чтобы классифицировать видео, последовательность сгенерированных выходов LSTM (y) усредняется. Результаты этого подхода, показанные ниже, скромны. Тем не менее, интерпретируемость - это то преимущество, которое требуется в некоторых приложениях.

использованная литература

[1] Покажи, посети и расскажи: создание подписи к нейронным изображениям с визуальным вниманием