- А. Джейн, А. Сингх, Х. С. Коппула, С. Сох и А. Саксена, «Рекуррентные нейронные сети для прогнозирования действий водителя с помощью архитектуры сенсорного слияния», Международная конференция IEEE по робототехнике и автоматизации, 2016 г.
- Чан Ф. Х., Чен Ю. Т., Сян Ю. и Сунь М. «Предвидеть несчастные случаи на видео с видеорегистраторов», Азиатская конференция по компьютерному зрению (ACCV), 2016 г.
- П. Ван, С. Лиен и М. Ли, «Модель прогнозирования несчастных случаев с детьми на основе обучения», Международная конференция IEEE по обработке изображений (ICIP), 2019 г., Тайбэй, Тайвань, 2019 г., стр. 629–633.
От самого старого к самому новому.
«Рекуррентные нейронные сети для прогнозирования активности водителя с помощью архитектуры сенсорного слияния» (2016 г.)
Мотивация: предвидеть действие (маневр) водителя за несколько секунд до того, как оно произойдет. Используйте сенсорный синтез, чтобы решить эту проблему. Используйте экспоненциальные потери, чтобы предотвратить переоснащение.
Предсказание активности реализовано в виде предсказания от последовательности к последовательности.
Постановка задачи: учитывая наблюдение xₜ на каждом шаге, модель должна предсказать будущее событие как можно раньше, наблюдая только частичную последовательность (как можно раньше).
На момент обучения доступен набор последовательностей и меток. Метка указывает на событие, которое происходит на последнем временном шаге T.
Вклады:
- Модель RNN-LSTM с объединением функций (несколько модальностей) (перечислена в документе)
- Предлагаемые функции для предвосхищения действия (перечислены по документам)
- Современный набор данных по прогнозированию маневров (перечислен на бумаге)
- Экспоненциальный уровень потерь для ожидания
Ключевые дизайны:
- RNN-LSTM для объединения функций
- Экспоненциальная потеря
Модальность: 2 × видео, скорость автомобиля, GPS-координаты
Набор данных: 1180 миль пробега от 10 водителей. Видео с видом снаружи, видео с видом изнутри, скорость автомобиля, GPS-координаты. Аннотировано с 700 событиями, а именно: 274 смены полосы движения, 131 поворот, 295 случаев движения прямо.
Метки набора данных: 5 (левая полоса, правая полоса, левый поворот, правый поворот, прямо), 3 (левая смена полосы, правая смена полосы, движение прямо) или 2 (правый поворот, левый поворот).
Увеличение: путем извлечения подпоследовательностей (700 → 2250 образцов).
Сетевая архитектура: RNN+LSTM с LSTM для предсказания и RNN для сенсорного слияния.
Предлагаемые функции:
- видео спереди, координаты GPS, динамика транспортных средств [подробнее в [19]] zₜ∈ℝ⁶
и
- функции гистограммы, извлеченные из лица водителя (KLT: оптический поток → горизонтальные и угловые движения → гистограмма функций более 20 кадров [0,8 с видео]), xₜ∈ℝ⁹
или (для сравнения)
- CLNF (Ограниченное локальное нейронное поле) отслеживание 68 фиксированных ориентиров, трехмерное положение головы (оценка по CLNF) xₜ∈ℝ¹²
Потери: (новый) экспоненциальный уровень потерь, который побуждает модель делать ранние прогнозы, но не делает модель более подходящей, когда для прогнозирования недостаточно сигналов.
(мой комментарий) Самый большой вклад в предсказание действий. По сути, эта функция потерь представляет собой взвешенную версию стандартной функции soft-max loss, где ошибки на временных шагах ближе к событию наказываются сильнее. В то же время модель будет наказана за слишком раннее предсказание. Я рассматриваю это как способ смоделировать намерение водителя (особенно с тех пор, как у П. Ванга, С. Лиена и М. Ли потеря изменена, чтобы учесть большую инерцию действий младенцев по сравнению с действиями водителей).
Показатели: движение прямо не учитывается в точности и отзыве (ссылки [14] и [15] в документе), поскольку метод прогнозирует движение прямо как действие по умолчанию ( когда он не уверен в предсказании маневра).
Эксперименты: 5-кратная перекрестная проверка сообщала о точности и полноте (как определено выше). (мой комментарий) На мой взгляд, результаты следует сообщать о перекрестной проверке с исключением одного субъекта (см.: А. Зунино, Дж. Кавацца, А. Коул, А. Кавалло, К. Беккио и В. Мурино). , "Что я буду делать дальше? Намерение из эксперимента с движением", Конференция IEEE, 2017 г., семинары по компьютерному зрению и распознаванию образов (CVPRW), Гонолулу, Гавайи, 2017 г., стр. 1–8.).
Модели предсказывают действие, если вероятность soft-max превышает пороговое значение pₜₕ. В документе все результаты, кроме рис. 8 (исследование влияния pₜₕ на показатель F1), представлены с использованием порога pₜₕ, который максимизирует показатель F1. (мой комментарий) Это казалось (и до сих пор кажется) немного странным для меня, исходя из другого опыта, что кто-то может выбрать пороговое значение на основе своего набора тестов, но это стандартная практика. Как отмечают авторы, «это позволяет практикующим специалистам найти компромисс между точностью и полнотой без существенного ущерба для оценки F1». Различные пороги приводят к кривой Precision-Recall, которая является стандартной характеристикой производительности в трех статьях, которые я суммировал.
Результаты: в разделе Все маневры действия по настройке предсказываются за 3,58 с (в среднем) до того, как они произойдут.
«Предвидеть несчастные случаи на видео с видеорегистраторов» (2016 г.)
Мотивация: предвидеть несчастные случаи на дороге. Используйте пространственное внимание и RNN, чтобы предвидеть несчастные случаи. Проблема затрагивается гораздо меньше, чем упреждение маневров — в отличие от предыдущих работ, концентрирующихся на конкретных маневрах, эта работа направлена на упреждение различных происшествий. Соберите набор данных о несчастных случаях (видео с краудсорсинговых видеорегистраторов).
Предсказание активности реализовано в виде предсказания от последовательности к последовательности.
Постановка задачи: учитывая наблюдение xₜ на каждом шаге, модель должна предсказать вероятность аварии aₜ, наблюдая только частичную последовательность (как можно раньше).
На момент обучения доступен набор последовательностей и меток. Метка указывает время T, в которое происходит авария.
Вклады:
- Динамическое пространственное внимание
- Набор данных видеорегистратора
Ключевые дизайны:
- Механизм динамического пространственного внимания (DSA): для динамического распределения мягкого внимания в каждом кадре используется современный детектор объектов. J Наблюдения за конкретными пространственными объектами ϕ (X) объединяются с полнокадровыми характеристиками xᶠ двумя способами:
а) конкатенация: x=[xᶠ; ф(Х)]
b) взвешенная сумма: рассматривать кадр как объект полного кадра и использовать предлагаемый DSA для присвоения мягкого веса полному весу. Автор отмечает, что «этот способ комбинирования уменьшает размер комбинированного объекта на два».
- Экспоненциальная потеря
Модальность: видео
Набор данных: 678 видео с видеорегистраторов 720p (краудсорсинг). Разные (например, мотоцикл врезается в машину, машина врезается в машину и т. д.), снято в шести городах Тайваня. 58 из 678 используются для детектора объектов. 620 видео отбираются до 620 позитивных клипов и 1130 негативных клипов. Каждый из роликов состоит из 100 кадров (5 секунд) и (если положительный) авария на последних 10 кадрах.
Метки набора данных: метка указывает временной шаг T, на котором происходит авария.
Аугментация: нет упоминания об аугментации
Сетевая архитектура: DSA+RNN
Предлагаемые функции:
- IDT + PCA + GMM + векторное кодирование Фишера (IDT для 5 последовательных кадров, PCA для уменьшения размерности до 100 и GMM с 64 кластерами, статистика 1-го порядка векторного кодирования Фишера) — фиксированная функция размерности 6400
- VGG и VGG+DSA (номер объекта-кандидата DSA установлен равным 20)
Потери: экспоненциальные потери, как описано ниже в разделе «Рекуррентные нейронные сети для прогнозирования активности водителя с помощью архитектуры сенсорного слияния».
Метрики: стандартная точность (TP/(TP+FP)) и отзыв (TP/(TP+FN)). Время до аварии (ToA).
Примеры (показатели):
ТП: Видео — положительный образец. В кадре t, когда предсказанные пороги вероятности q, методы предсказывают TP. Авария была правильно предсказана в кадре t. Время до аварии будет равно ToA=y-t.
ФП: Видео — отрицательный образец. В кадре t, когда предсказанные пороги вероятности q, методы предсказывают FP.
Аналогично FN и TN.
Изменение q приводит к кривой Precision-Recall.
Эксперименты: исследование абляции, отчет AP на разных установках (73,53% для предложенного метода). Кривые Precision-Recall. Средняя кривая ToA против отзыва.
«Модель прогнозирования несчастных случаев с детьми на основе обучения» (2019 г.)
Мотивация: предсказание несчастных случаев, разработанное специально для младенцев. Сбор наборов данных (из источников Crow). Обрабатывайте более долгосрочные зависимости, чем LSTM, при другом временном разрешении. Приспособьте экспоненциальную потерю к манере действий младенцев (ранняя экспоненциальная потеря).
Предсказание активности реализовано в виде предсказания от последовательности к последовательности.
Постановка задачи: учитывая наблюдение xₜ на каждом шаге, модель должна предсказать вероятность аварии aₜ, наблюдая только частичную последовательность (как можно раньше).
На момент обучения доступен набор последовательностей и меток. Метка указывает время T, в которое происходит авария.
Вклады:
- Ранняя экспоненциальная потеря (модификация экспоненциальной потери для учета инерции действий младенцев)
- Сеть TP-LSTM (временно-пирамидальный LSTM)
- Набор данных детского видео BVD
Ключевые дизайны:
- Сеть TP-LSTM (временно-пирамидальный LSTM)
- Временное внимание
- Ранняя экспоненциальная потеря
TP-LSTM: дизайн для захвата функций в различных временных разрешениях. Обратитесь к бумаге за иллюстрациями. Уровень 1 LSTM будет принимать в качестве входных данных функции уровня 0 на каждом временном шаге и функции уровня 2. (Насколько я понимаю) функции уровня 2 на самом деле являются функциями уровня 0, выбранными на каком-то этапе и повторенными, чтобы компенсировать пропущенные шаги. В одной и той же схеме можно создать больше слоев, все они подключаются к LSTM уровня 1 с увеличением размера группировки (шаг).
Механизм временного внимания: целью этого механизма внимания является присвоение важности каждому уровню временного разрешения. Линейная комбинация и soft-max для вычисления веса внимания. Механизм внимания принимает входные данные в кадре t с текущего уровня и слоев с более высоким временным разрешением. То есть, если в TP-LSTM есть 3 уровня, уровень 3 не будет иметь уровня внимания. Слой 2 будет иметь слой внимания со слоями 3 и 2 в качестве входных данных. Слой 1 будет иметь слой внимания со слоями 3, 2 и 1 в качестве входных данных.
Ранняя экспоненциальная потеря: модификация экспоненциальной потери, предложенная Jain et al. (см. резюме ниже). Модификация должна учитывать более высокую инерцию движений младенцев. То есть дорожно-транспортные происшествия случаются внезапно и быстро. Наоборот, как отмечают авторы, младенцы «обычно двигаются медленнее с большей инерцией, а значит, можно получить подсказку раньше». Другими словами, исходный EL был бы слишком сильным регуляризатором.
Модальность: видео (RGB, с оптическим потоком или без него?)
Набор данных: 670 краудсорсинговых видео продолжительностью 5 с при 30 кадрах в секунду. 320 положительных и 350 отрицательных образцов. Набор данных состоит из выборок по категориям: 46 % падений, 35 % падений с мебели, 11 % столкновений с предметами и 8 % других (из бумаги неясно, помечен ли набор данных этими категориями).
Метки набора данных: момент T, в который происходит авария.
Увеличение данных: переворачивание видео по горизонтали.
Сеть: (кадр: ResNet152+кадр:внедрение функций)+последовательность: TP-LSTM
Показатели: AP, средний ToA (см. «Предвидение несчастных случаев в видеороликах с видеорегистратором» ниже), точность при воспроизведении 80 %.
Эксперименты: исследование абляции, наилучшее AP = 61,13% и наилучшая точность при 80% составляет 53,68%. Для этой установки несчастные случаи прогнозируются за 4,196 до того, как они произойдут.