Создание и аннотирование наборов данных для распознавания действий требует больших затрат. В отличие от аннотации изображений, процесс распознавания действий и аннотации обнаружения занимает много времени. Типичный трюк для достижения высокой точности распознавания таких небольших наборов данных - это использование неконтролируемых данных для предварительного обучения нейронной сети. Эту предварительно обученную сеть можно позже настроить с помощью небольшого помеченного набора данных.

Видео - это последовательность кадров, связанных во времени. Учитывая последовательность кадров, можно проверить их последовательный порядок без какой-либо предшествующей метки действия. Эта идея используется в нескольких статьях, таких как Shuffle & Learn, Odd one out и в этой статье - Order prediction Network.

При неконтролируемом подходе проблема проверки последовательности кадров формулируется как классификация. В то время как Shuffle & Learn - это бинарная классификация, Odd one out и Order prediction Network - это мультиклассовые задачи классификации. В этом документе предлагается сеть прогнозирования порядка (OPN) для определения правильного порядка последовательности кадров. Учитывая последовательность из четырех кадров, получается 4! = 24 возможных перестановки. Поскольку некоторые действия согласованы как в прямом, так и в обратном направлении (например, открытие / закрытие двери), перестановки сокращаются до 4! / 2 = 12.

OPN - это сиамская сетевая структура, питаемая кадрами RGB. Ниже показан процесс выборки данных. AlexNet используется для изучения возможностей изображения RGB - f6. В то время как в другой статье изученная особенность объединяется до уровня классификации, утверждается, что «один взгляд на все кадры» может не отражать концепцию упорядочивания. Таким образом, перед слоем классификации выполняется попарное извлечение признаков. Эти попарные признаки в конечном итоге объединяются для прогнозирования порядка - многоклассового уровня классификации.

ИМХО, у этого подхода есть проблемы с масштабируемостью. В то время как Odd one out (O3N) передает 15 кадров в одну сеть, этот подход использует четыре сиамских сети для четырех кадров. Затем он вычисляет попарные признаки 4-select-2 (4C2), и это число растет экспоненциально с точки зрения количества кадров. Но, честно говоря, OPN превосходит O3N, согласно их статье.

Процесс построения выборки делится на три этапа. Первая фаза способствует сэмплированию с учетом движения. Вместо случайной выборки кадры выбираются из окон динамического движения, как в случае с бумагой Shuffle & Learn.

После кадров дискретизации применяются пространственное дрожание и разделение каналов. Пространственное дрожание означает выборку случайного фрагмента из каждого кадра. В этой статье патч размером 80x80 случайным образом извлекается из каждого кадра 224x224. Разделение каналов означает случайный выбор одного цветового канала и дублирование его значений на два других канала; аналог преобразования оттенков серого.

Как только неконтролируемая сеть узнает полезное встраивание, сеть может быть точно настроена с использованием небольшого помеченного набора данных. Для этого поверх слоя внедрения устанавливается слой классификации. Все подходы инициализируют контролируемую сеть с предварительно обученными неконтролируемыми весами. Некоторые подходы обучают только слой классификации, расположенный поверх слоя внедрения. Остальные тренируют всю сеть - обучение возобновляется.