1. А. Джейн, А. Сингх, Х. С. Коппула, С. Сох и А. Саксена, «Рекуррентные нейронные сети для прогнозирования действий водителя с помощью архитектуры сенсорного слияния», Международная конференция IEEE по робототехнике и автоматизации, 2016 г.
  2. Чан Ф. Х., Чен Ю. Т., Сян Ю. и Сунь М. «Предвидеть несчастные случаи на видео с видеорегистраторов», Азиатская конференция по компьютерному зрению (ACCV), 2016 г.
  3. П. Ван, С. Лиен и М. Ли, «Модель прогнозирования несчастных случаев с детьми на основе обучения», Международная конференция IEEE по обработке изображений (ICIP), 2019 г., Тайбэй, Тайвань, 2019 г., стр. 629–633.

От самого старого к самому новому.

«Рекуррентные нейронные сети для прогнозирования активности водителя с помощью архитектуры сенсорного слияния» (2016 г.)

Мотивация: предвидеть действие (маневр) водителя за несколько секунд до того, как оно произойдет. Используйте сенсорный синтез, чтобы решить эту проблему. Используйте экспоненциальные потери, чтобы предотвратить переоснащение.

Предсказание активности реализовано в виде предсказания от последовательности к последовательности.

Постановка задачи: учитывая наблюдение xₜ на каждом шаге, модель должна предсказать будущее событие как можно раньше, наблюдая только частичную последовательность (как можно раньше).

На момент обучения доступен набор последовательностей и меток. Метка указывает на событие, которое происходит на последнем временном шаге T.

Вклады:

  • Модель RNN-LSTM с объединением функций (несколько модальностей) (перечислена в документе)
  • Предлагаемые функции для предвосхищения действия (перечислены по документам)
  • Современный набор данных по прогнозированию маневров (перечислен на бумаге)
  • Экспоненциальный уровень потерь для ожидания

Ключевые дизайны:

  • RNN-LSTM для объединения функций
  • Экспоненциальная потеря

Модальность: 2 × видео, скорость автомобиля, GPS-координаты

Набор данных: 1180 миль пробега от 10 водителей. Видео с видом снаружи, видео с видом изнутри, скорость автомобиля, GPS-координаты. Аннотировано с 700 событиями, а именно: 274 смены полосы движения, 131 поворот, 295 случаев движения прямо.

Метки набора данных: 5 (левая полоса, правая полоса, левый поворот, правый поворот, прямо), 3 (левая смена полосы, правая смена полосы, движение прямо) или 2 (правый поворот, левый поворот).

Увеличение: путем извлечения подпоследовательностей (700 → 2250 образцов).

Сетевая архитектура: RNN+LSTM с LSTM для предсказания и RNN для сенсорного слияния.

Предлагаемые функции:

  • видео спереди, координаты GPS, динамика транспортных средств [подробнее в [19]] zₜ∈ℝ⁶

и

  • функции гистограммы, извлеченные из лица водителя (KLT: оптический поток → горизонтальные и угловые движения → гистограмма функций более 20 кадров [0,8 с видео]), xₜ∈ℝ⁹

или (для сравнения)

  • CLNF (Ограниченное локальное нейронное поле) отслеживание 68 фиксированных ориентиров, трехмерное положение головы (оценка по CLNF) xₜ∈ℝ¹²

Потери: (новый) экспоненциальный уровень потерь, который побуждает модель делать ранние прогнозы, но не делает модель более подходящей, когда для прогнозирования недостаточно сигналов.

(мой комментарий) Самый большой вклад в предсказание действий. По сути, эта функция потерь представляет собой взвешенную версию стандартной функции soft-max loss, где ошибки на временных шагах ближе к событию наказываются сильнее. В то же время модель будет наказана за слишком раннее предсказание. Я рассматриваю это как способ смоделировать намерение водителя (особенно с тех пор, как у П. Ванга, С. Лиена и М. Ли потеря изменена, чтобы учесть большую инерцию действий младенцев по сравнению с действиями водителей).

Показатели: движение прямо не учитывается в точности и отзыве (ссылки [14] и [15] в документе), поскольку метод прогнозирует движение прямо как действие по умолчанию ( когда он не уверен в предсказании маневра).

Эксперименты: 5-кратная перекрестная проверка сообщала о точности и полноте (как определено выше). (мой комментарий) На мой взгляд, результаты следует сообщать о перекрестной проверке с исключением одного субъекта (см.: А. Зунино, Дж. Кавацца, А. Коул, А. Кавалло, К. Беккио и В. Мурино). , "Что я буду делать дальше? Намерение из эксперимента с движением", Конференция IEEE, 2017 г., семинары по компьютерному зрению и распознаванию образов (CVPRW), Гонолулу, Гавайи, 2017 г., стр. 1–8.).

Модели предсказывают действие, если вероятность soft-max превышает пороговое значение pₜₕ. В документе все результаты, кроме рис. 8 (исследование влияния pₜₕ на показатель F1), представлены с использованием порога pₜₕ, который максимизирует показатель F1. (мой комментарий) Это казалось (и до сих пор кажется) немного странным для меня, исходя из другого опыта, что кто-то может выбрать пороговое значение на основе своего набора тестов, но это стандартная практика. Как отмечают авторы, «это позволяет практикующим специалистам найти компромисс между точностью и полнотой без существенного ущерба для оценки F1». Различные пороги приводят к кривой Precision-Recall, которая является стандартной характеристикой производительности в трех статьях, которые я суммировал.

Результаты: в разделе Все маневры действия по настройке предсказываются за 3,58 с (в среднем) до того, как они произойдут.

«Предвидеть несчастные случаи на видео с видеорегистраторов» (2016 г.)

Мотивация: предвидеть несчастные случаи на дороге. Используйте пространственное внимание и RNN, чтобы предвидеть несчастные случаи. Проблема затрагивается гораздо меньше, чем упреждение маневров — в отличие от предыдущих работ, концентрирующихся на конкретных маневрах, эта работа направлена ​​на упреждение различных происшествий. Соберите набор данных о несчастных случаях (видео с краудсорсинговых видеорегистраторов).

Предсказание активности реализовано в виде предсказания от последовательности к последовательности.

Постановка задачи: учитывая наблюдение xₜ на каждом шаге, модель должна предсказать вероятность аварии aₜ, наблюдая только частичную последовательность (как можно раньше).

На момент обучения доступен набор последовательностей и меток. Метка указывает время T, в которое происходит авария.

Вклады:

  • Динамическое пространственное внимание
  • Набор данных видеорегистратора

Ключевые дизайны:

  • Механизм динамического пространственного внимания (DSA): для динамического распределения мягкого внимания в каждом кадре используется современный детектор объектов. J Наблюдения за конкретными пространственными объектами ϕ (X) объединяются с полнокадровыми характеристиками xᶠ двумя способами:

а) конкатенация: x=[xᶠ; ф(Х)]

b) взвешенная сумма: рассматривать кадр как объект полного кадра и использовать предлагаемый DSA для присвоения мягкого веса полному весу. Автор отмечает, что «этот способ комбинирования уменьшает размер комбинированного объекта на два».

  • Экспоненциальная потеря

Модальность: видео

Набор данных: 678 видео с видеорегистраторов 720p (краудсорсинг). Разные (например, мотоцикл врезается в машину, машина врезается в машину и т. д.), снято в шести городах Тайваня. 58 из 678 используются для детектора объектов. 620 видео отбираются до 620 позитивных клипов и 1130 негативных клипов. Каждый из роликов состоит из 100 кадров (5 секунд) и (если положительный) авария на последних 10 кадрах.

Метки набора данных: метка указывает временной шаг T, на котором происходит авария.

Аугментация: нет упоминания об аугментации

Сетевая архитектура: DSA+RNN

Предлагаемые функции:

  • IDT + PCA + GMM + векторное кодирование Фишера (IDT для 5 последовательных кадров, PCA для уменьшения размерности до 100 и GMM с 64 кластерами, статистика 1-го порядка векторного кодирования Фишера) — фиксированная функция размерности 6400
  • VGG и VGG+DSA (номер объекта-кандидата DSA установлен равным 20)

Потери: экспоненциальные потери, как описано ниже в разделе «Рекуррентные нейронные сети для прогнозирования активности водителя с помощью архитектуры сенсорного слияния».

Метрики: стандартная точность (TP/(TP+FP)) и отзыв (TP/(TP+FN)). Время до аварии (ToA).

Примеры (показатели):

ТП: Видео — положительный образец. В кадре t, когда предсказанные пороги вероятности q, методы предсказывают TP. Авария была правильно предсказана в кадре t. Время до аварии будет равно ToA=y-t.

ФП: Видео — отрицательный образец. В кадре t, когда предсказанные пороги вероятности q, методы предсказывают FP.

Аналогично FN и TN.

Изменение q приводит к кривой Precision-Recall.

Эксперименты: исследование абляции, отчет AP на разных установках (73,53% для предложенного метода). Кривые Precision-Recall. Средняя кривая ToA против отзыва.

«Модель прогнозирования несчастных случаев с детьми на основе обучения» (2019 г.)

Мотивация: предсказание несчастных случаев, разработанное специально для младенцев. Сбор наборов данных (из источников Crow). Обрабатывайте более долгосрочные зависимости, чем LSTM, при другом временном разрешении. Приспособьте экспоненциальную потерю к манере действий младенцев (ранняя экспоненциальная потеря).

Предсказание активности реализовано в виде предсказания от последовательности к последовательности.

Постановка задачи: учитывая наблюдение xₜ на каждом шаге, модель должна предсказать вероятность аварии aₜ, наблюдая только частичную последовательность (как можно раньше).

На момент обучения доступен набор последовательностей и меток. Метка указывает время T, в которое происходит авария.

Вклады:

  • Ранняя экспоненциальная потеря (модификация экспоненциальной потери для учета инерции действий младенцев)
  • Сеть TP-LSTM (временно-пирамидальный LSTM)
  • Набор данных детского видео BVD

Ключевые дизайны:

  • Сеть TP-LSTM (временно-пирамидальный LSTM)
  • Временное внимание
  • Ранняя экспоненциальная потеря

TP-LSTM: дизайн для захвата функций в различных временных разрешениях. Обратитесь к бумаге за иллюстрациями. Уровень 1 LSTM будет принимать в качестве входных данных функции уровня 0 на каждом временном шаге и функции уровня 2. (Насколько я понимаю) функции уровня 2 на самом деле являются функциями уровня 0, выбранными на каком-то этапе и повторенными, чтобы компенсировать пропущенные шаги. В одной и той же схеме можно создать больше слоев, все они подключаются к LSTM уровня 1 с увеличением размера группировки (шаг).

Механизм временного внимания: целью этого механизма внимания является присвоение важности каждому уровню временного разрешения. Линейная комбинация и soft-max для вычисления веса внимания. Механизм внимания принимает входные данные в кадре t с текущего уровня и слоев с более высоким временным разрешением. То есть, если в TP-LSTM есть 3 уровня, уровень 3 не будет иметь уровня внимания. Слой 2 будет иметь слой внимания со слоями 3 и 2 в качестве входных данных. Слой 1 будет иметь слой внимания со слоями 3, 2 и 1 в качестве входных данных.

Ранняя экспоненциальная потеря: модификация экспоненциальной потери, предложенная Jain et al. (см. резюме ниже). Модификация должна учитывать более высокую инерцию движений младенцев. То есть дорожно-транспортные происшествия случаются внезапно и быстро. Наоборот, как отмечают авторы, младенцы «обычно двигаются медленнее с большей инерцией, а значит, можно получить подсказку раньше». Другими словами, исходный EL был бы слишком сильным регуляризатором.

Модальность: видео (RGB, с оптическим потоком или без него?)

Набор данных: 670 краудсорсинговых видео продолжительностью 5 с при 30 кадрах в секунду. 320 положительных и 350 отрицательных образцов. Набор данных состоит из выборок по категориям: 46 % падений, 35 % падений с мебели, 11 % столкновений с предметами и 8 % других (из бумаги неясно, помечен ли набор данных этими категориями).

Метки набора данных: момент T, в который происходит авария.

Увеличение данных: переворачивание видео по горизонтали.

Сеть: (кадр: ResNet152+кадр:внедрение функций)+последовательность: TP-LSTM

Показатели: AP, средний ToA (см. «Предвидение несчастных случаев в видеороликах с видеорегистратором» ниже), точность при воспроизведении 80 %.

Эксперименты: исследование абляции, наилучшее AP = 61,13% и наилучшая точность при 80% составляет 53,68%. Для этой установки несчастные случаи прогнозируются за 4,196 до того, как они произойдут.