Обнаруживайте и отслеживайте 2D-позы нескольких людей в реальном времени со скоростью 30 кадров в секунду на одном графическом процессоре.
В этом посте мы рассмотрим новый документ под названием «Эффективное онлайн-отслеживание двухмерных поз для нескольких людей с помощью повторяющихся пространственно-временных полей сродства» из CVPR 2019.
Авторы представляют онлайн-подход для эффективного и одновременного обнаружения и отслеживания двухмерных поз нескольких людей со скоростью 30 кадров в секунду на одном графическом процессоре.
По словам автора, это «в настоящее время самый быстрый и точный восходящий подход, который не зависит от времени выполнения для количества людей в сцене и не зависит от точности ввода частоты кадров камеры».
Некоторые основные моменты статьи:
- Надежный и инвариантный к входной частоте кадров даже при входной частоте 6 Гц.
- Обрабатывает быстро движущиеся цели и движения камеры
- Время выполнения не зависит от количества людей в кадре.
- Предложите поля пространственно-временного сходства (STAF), которые кодируют связи между ключевыми точками в кадрах.
- Предложите новую временную топологию с перекрестными связями между конечностями, которая может обрабатывать движущиеся цели, движение камеры и размытие движения.
Вот результаты авторов.
Контур
Вступление
Общий трубопровод
- Особенности VGG
- PAF и тепловые карты ключевых точек
- Поля временного сродства (TAF)
- Вывод
Перекрестная топология
Полученные результаты
Ограничения
Реализация
использованная литература
Мои обзоры
Вступление
Поза человека и отслеживание движения привлекли к себе пристальное внимание в последние несколько лет. Недавно представленный набор данных PoseTrack представляет собой крупномасштабный корпус видеоданных, который позволяет решить эту проблему в сообществе специалистов по компьютерному зрению.
Есть еще несколько работ по этой проблеме. Однако ни один из этих методов не может работать в реальном времени, как обычно:
- Следуйте нисходящим методам обнаружения и отслеживания задач, которые требовали дополнительных вычислений по мере увеличения количества людей.
- Требовать автономных вычислений или стека кадров, что снижает скорость и не дает лучших результатов для отслеживания, чем базовый уровень венгерского алгоритма.
В этой статье авторы стремятся создать по-настоящему онлайн-средство оценки и отслеживания двухмерных поз для нескольких людей в режиме реального времени. Автор периодически работает над видео, чтобы сделать подход в реальном времени. Они используют информацию из предыдущего кадра, комбинируя 1) тепловые карты ключевых точек, 2) поля сродства частей и 3) поля пространственно-временного сродства (STAF).
Авторы расширяют поле Поля сродства частей в OpenPose из CVPR 2017. Авторы этой статьи также являются автором OpenPose. Не стесняйтесь проверить нашу предыдущую запись в блоге об OpenPose.
Общий трубопровод
На приведенном выше рисунке показан общий конвейер алгоритма пространственно-временных полей сходства (STAF). Видеокадры обрабатываются периодически во времени, включая:
- Извлеките функции VGG.
- Извлечь поля схожести деталей (PAF)
- Извлеките тепловые карты ключевых точек
- Извлекайте связи между ключевыми точками в кадрах в виде полей временной привязки (TAF).
Особенности VGG
Каждый кадр обрабатывается магистралью VGG для извлечения функций VGG. Эта часть не требует информации о предыдущих кадрах.
Для кадра It во время t видео они рассчитывались как:
PAF и тепловые карты ключевых точек
Тепловые карты PAF и Keypoints очень похожи на подход OpenPose, за исключением того, что они также будут использовать информацию из предыдущего кадра.
В статье есть три метода вычисления PAF:
- Использовать данные 5 предыдущих кадров.
- Используйте только 1 предыдущий кадр.
- Оцените PAF и TAF одновременно.
В своих экспериментах они обнаружили, что:
- Метод 1 дает хорошие результаты, но он самый медленный из-за рекурсивных стадий.
- Метод 2 увеличивает скорость без существенной потери производительности.
- Метод 3 - самый трудный для обучения, но он самый быстрый.
В этом блоге мы обсуждаем только метод 2. Для других методов проверьте исходную бумагу.
Метод 2 вычисляет PAF и ключевые точки за один проход следующим образом:
Поля временного сродства (TAF)
Поля временной привязки (TAF) кодируют связи между ключевыми точками в кадрах.
Эти TAF представляют собой векторные поля, которые указывают направление, в котором каждый сустав тела будет двигаться от кадра I t-1 до кадра It. TAF также представлены в статье Андреас Деринг и др..
На следующем изображении TAF представлены синей стрелкой RtRt.
TAF зависят от функций VGG и PAF как из предыдущего, так и из текущего кадров, а также от TAF из предыдущего кадра следующим образом:
Вывод
И предполагаемые PAF, и TAF сортируются по их оценкам, прежде чем вывести полные позы и связать их между кадрами с уникальными идентификаторами.
Вот шаги: Просмотр каждого PAF в отсортированном списке:
- Инициализировать новую позу, если обе ключевые точки в PAF не назначены
- Назначена 01 ключевая точка: добавить в существующую позу
- Назначены обе ключевые точки: обновите оценку PAF в позе до той же самой позы.
- Обе ключевые точки назначены разным позам: объедините две позы.
- Назначьте id каждой позе в текущем кадре с наиболее частым идентификатором ключевых точек из предыдущего кадра.
Вот подробный алгоритм из оригинальной статьи:
Перекрестная топология
Существует три возможных варианта топологии для STAF.
Топология A является TAF по ключевым точкам и не имеет ассоциативных свойств, когда у ключевой точки минимальное движение или когда появляется новый человек.
Топология B и Топология C - это перекрестно связанные топологии конечностей. Автор показывает, что сшитые топологии конечностей могут решить проблему движения из топологии A. При минимальном движении TAF просто становятся PAF на этой конечности.
В бумажных экспериментах Топология C недостаточно эффективна по сравнению с Топологией B.
Полученные результаты
- Этот метод может обеспечить высокую точность даже при падении частоты кадров до 6 Гц.
- Метод позволяет достичь высокой точности и быстрой скорости вывода.
- Этот метод позволяет достичь конкурентных результатов в наборе данных PoseTrack.
Ограничения
У этой работы есть некоторые ограничения:
- В этот документ не встроен модуль повторной идентификации для обработки случаев ухода людей и их повторного появления на месте происшествия.
- Этот метод не может обрабатывать изменения сцены. Следовательно, может потребоваться обнаружить изменения сцены и перезапустить процесс с этого кадра.
Реализация
Эта статья находится в открытом доступе в авторском репозитории: soulslicer / openpose.
Это форк из репозитория OpenPose. В ближайшее время они будут объединены, и вы сможете использовать его прямо из OpenPose.
использованная литература
- [1] Яадхав Раадж, Харун Идрис, Гинес Идальго, Ясер Шейх, Эффективное онлайн-отслеживание двухмерных поз для нескольких людей с помощью повторяющихся пространственно-временных полей сродства, CVPR 2019
- [2] Чжэ Цао, Томас Саймон, Ши-Эн Вэй, Ясер Шейх, 2D-оценка позы для нескольких людей в реальном времени с использованием полей сродства частей (2017 г.), CVPR 2017
- [3] Андреас Деринг, Умар Икбал, Юрген Галл, Совместный поток: поля временного потока для отслеживания нескольких человек, CoRR, abs / 1805.04596, 2018
- Страница проекта: Эффективное онлайн-отслеживание двухмерных поз для нескольких людей с рекуррентными пространственно-временными полями сродства
- Код Github: Soulslicer / openpose
Мои обзоры
Классификация изображений: [NIPS 2012] AlexNet
Сегментация изображений: [CVPR 2019] Pose2Seg
Оценка позы: [CVPR 2017] OpenPose
Отслеживание позы: [CVPR 2019] STAF