Упс! Прогнозирование непреднамеренных действий в видео

Понимание намерения движения

На самом деле люди - несовершенные агенты, действия которых могут быть беспорядочными и непредсказуемыми. В то время как предыдущие исследования в основном сосредоточены на распознавании и прогнозировании человеческой деятельности, исследователи Колумбийского университета применяют новый подход - анализ целенаправленных человеческих действий. Дэйв Эпштейн, Боюан Чен и Карл Вондрик, представленные в CVPR 2020, вносят ценный вклад в проект «OOPS! Прогнозирование непреднамеренных действий в видео »[1]:

Предложение 3-х новых задач: классификация, локализация и предвидение непреднамеренного действия.
Внедрение нового эталонного набора данных: большого, общедоступного и (частично) аннотированного (оптический поток, временные метки непреднамеренного движения и т. Д.)
Сравнение среднего уровня восприятия ключей к непреднамеренному действию: скорость видео (новое), контекст видео [2], порядок событий [3]

Намерение движения

Многочисленные исследования были направлены на моделирование физических и атомных последствий человеческой деятельности, но лишь немногие пытались понять намерения, стоящие за движением. В этой статье проводится различие между преднамеренными и непреднамеренными движениями с целью выявления, локализации и прогнозирования непреднамеренных движений.

Ой! Набор данных

Упс! Набор данных [4] состоит из 20 338 видеоклипов (продолжительностью 3–30 секунд, всего более 50 часов) из неудачных компиляций YouTube. Все они проверены на предмет непреднамеренных действий человека в естественных условиях. Поскольку авторы предлагают самостоятельный подход к этой задаче, набор данных разделен на 3 подмножества: 7368 видео в качестве помеченного обучающего набора, 6739 помеченных видео в качестве тестового набора, а остальное - немаркированный набор для предварительного обучения. Для классификации действия в видео помечаются как «преднамеренные», «непреднамеренные» или «переходные»; для локализации рабочие аннотируют маркеры временных меток в временных точках сбоя (момент начала сбоя). Дополнительные аннотации наборов данных включают оптический поток и описания на естественном языке. В наборе данных 270 видео обозначены как диагностический набор, в котором отображаются более подробные ручные аннотации. Такие видео подразделяются на 9 типов непреднамеренных действий: «Ограниченные навыки», «Ограниченные знания», «Окружающая среда», «Неожиданный», «Ограниченная видимость», «Ошибка планирования», «Ошибка выполнения», «Один агент», «Мультиагент».

Авторы также приводят различные статистические данные по набору данных, включая распределение длин видеоклипов и метки времени отказа, чтобы проиллюстрировать разнообразие данных; стандартное отклонение меток от разных людей-аннотаторов для демонстрации высокого согласия человека (аннотатора); распределение категорий действий и сцен (в соответствии с их полностью контролируемыми исходными данными).

Самоконтрольные функции на основе ключей восприятия среднего уровня

Авторы исследуют подсказки самоконтроля, которые естественным образом присутствуют в видеороликах (или требуют минимальной аннотации), чтобы изучить глубокие, переносимые репрезентации интенциональности в человеческих действиях. В частности, исследуются скорость видео, контекст видео и порядок событий. Все ConvNets реализуются через модель ResNet3D-18 [5].

Скорость видео

Основываясь на предыдущем исследовании [6], авторы отмечают, что человеческое суждение о преднамеренности существенно зависит от скорости видео. Поскольку скорость видео является неотъемлемой частью каждого видео, вывод по скорости требует минимальной предварительной обработки. Для обучения авторы синтетически изменяют скорость видео и обучают самоконтролируемую ConvNet предсказывать истинную частоту кадров. Как отмечают авторы, функции, генерируемые этой ConvNet, коррелируют с ожидаемой продолжительностью событий (надежность, полученная в результате обучения на видео с синтетически измененной скоростью) и кодируют покадровую информацию о движении, тем самым создавая полезное представление видео. информация о скорости.

Контекст видео

Авторы заявляют, что «непреднамеренное действие часто является отклонением от ожидания», и исследуют предсказуемость кадров как визуальную метрику преднамеренности. Руководствуясь предыдущим исследованием [2], они рассматривают кадры x_ {t-1} и x_ {t + 1} как окружающий контекст видео, и побудить модель интерполировать карту характеристик среднего целевого кадра x_t. В частности, они используют концепции контрастной оценки шума [7] и контрастного прогнозирующего кодирования [2, 3, 8] для структурирования целевой функции, которая должна быть максимизирована:

чтобы максимально увеличить расстояние между функциями целевого кадра и контекстным встраиванием, минимизируя при этом расстояние между функциями целевого кадра и неконтекстными функциями клипа.

Порядок событий

Авторы приводят обоснование того, что «непреднамеренное движение часто проявляется как хаотическое или необратимое движение», что приводит к определенному временному порядку событий. Чтобы сгенерировать представление порядка событий [3], они переставляют и перемешивают субдискретизированные клипы из видео и обучают ConvNet предсказывать применяемую последовательность перестановок. Это достигается с помощью модели из трех частей, состоящей из кодировщика признаков клипа, сети попарных отношений клипов (где признаки обозначают сходство клипов) и предсказателя порядка событий.

Характеристики, извлеченные из приведенных выше моделей с самоконтролем, затем используются в качестве входных данных для линейного классификатора, который выполняет классификацию по трем классам: «преднамеренное», «непреднамеренное» и «переходное» движение.

Эксперименты

Производительность оценивается по трем задачам: классификация, локализация (определение временной границы перехода от намеренного к непреднамеренному движению), предвосхищение (прогнозирование начала отказа) и три уровня сравнения: во-первых, сравнение различных случайных подсказок самоконтроля. (скорость видео (новое предложение), контекст видео, порядок событий); во-вторых, сравнение самоконтролируемых моделей и полностью контролируемых базовых показателей (предварительное обучение на наборе данных распознавания действий Kinetics плюс точная настройка детализированных аннотаций: величина движения, царапина, шанс); наконец, сравнение производительности машины и человека (человеческое согласие).

Классификация, локализация, прогноз

Для всех трех задач контроль кинетики обеспечивает наилучшие характеристики машины, в то время как контроль скорости видео неизменно превосходит все другие методы с самоконтролем и полным контролем. Разрыв в производительности между полностью контролируемыми и самоконтролируемыми методами наименьший по классификации (Таблица 1) и наибольший по временной локализации (Таблица 2). Для количественной оценки точности локализации правильными считаются прогнозы, которые перекрываются (результаты сообщаются в пределах от 1 до 0,25 с) с любым наземным истинным временным местоположением (в некоторых видео есть несколько наземных истин).

В частности, модели с самоконтролем страдали больше ложноположительных предсказаний границ, чем модели с полным контролем, когда они объединяли намеренное движение с началом отказа (рис. 2). Кроме того, авторы проводят подробный анализ частоты ошибок (рис. 3) для каждой из 9 категорий непреднамеренного движения (в вышеупомянутом диагностическом наборе). Они сообщают, что непреднамеренное движение, вызванное неожиданными («например, птица внезапно налетает») или факторами окружающей среды («например, скольжение по льду»), наиболее трудно обнаружить, и выдвигают гипотезу о том, что в мультиагентных сценах наблюдается самый низкий уровень ошибок. из-за их более очевидных визуальных подсказок. Другие проблемы включают ограниченную видимость видео (закрытые объекты) и ограниченные знания («например, понимание того, что огонь горячий»). Как видно из результатов, методы как с самоконтролем, так и с полным контролем значительно отстают от человеческих возможностей.

Заключение

«Упс! Предсказание непреднамеренных действий в видео »вводит 3 новые задачи для понимания преднамеренности в действиях человека и представляет собой большой набор контрольных данных для будущей работы. Авторы предлагают подход с самостоятельным контролем и сообщают о многообещающих результатах, используя скорость видео в качестве случайного ключа для представления видео.

Ссылки

[1] Дэйв Эпштейн, Боюан Чен и Карл Вондрик. Ой! Предсказание непреднамеренных действий на видео . В CVPR, 2020.
[2] Аарон ван ден Оорд, Яже Ли и Ориол Виньялс. Репрезентативное обучение с контрастным прогнозирующим кодированием. Препринт arXiv arXiv: 1807.03748, 2018.
[3] Дэцзин Сюй, Цзюнь Сяо, Чжоу Чжао, Цзянь Шао, Ди Се и Ютин Чжуан. Самоконтролируемое пространственно-временное обучение посредством предсказания порядка видеоклипов. В CVPR, 2019 г.
[4] Дэйв Эпштейн, Боюан Чен и Карл Вондрик. Ой! Прогнозирование непреднамеренных действий в видео . Получено с https://oops.cs.columbia.edu/
[5] Кеншо Хара, Хирокацу Катаока и Ютака Сато. Могут ли пространственно-временные трехмерные изображения воспроизвести историю двухмерных изображений и изображений? В CVPR, 2018.
[6] Юджин М. Карузо, Закари С. Бернс и Бенджамин А. Конверс. Замедленное движение увеличивает воспринимаемое намерение. В PNAS, 2016.
[7] Рафаль Юзефович, Ориол Виньялс, Майк Шустер, Ноам Шазир и Юнхуэй Ву. Изучение границ языкового моделирования. Препринт arXiv arXiv: 1602.02410, 2016.
[8] Тенгда Хан, Вейди Се и Эндрю Зиссерман. Обучение видеопрезентации с помощью плотного прогнозирующего кодирования. В мастерских ICCV, 2019.

Упс! Прогнозирование непреднамеренных действий в видео

Понимание намерения движения

Вопросы по теме