Обнаруживайте и отслеживайте 2D-позы нескольких людей в реальном времени со скоростью 30 кадров в секунду на одном графическом процессоре.

В этом посте мы рассмотрим новый документ под названием «Эффективное онлайн-отслеживание двухмерных поз для нескольких людей с помощью повторяющихся пространственно-временных полей сродства» из CVPR 2019.

Авторы представляют онлайн-подход для эффективного и одновременного обнаружения и отслеживания двухмерных поз нескольких людей со скоростью 30 кадров в секунду на одном графическом процессоре.

По словам автора, это «в настоящее время самый быстрый и точный восходящий подход, который не зависит от времени выполнения для количества людей в сцене и не зависит от точности ввода частоты кадров камеры».

Некоторые основные моменты статьи:

  • Надежный и инвариантный к входной частоте кадров даже при входной частоте 6 Гц.
  • Обрабатывает быстро движущиеся цели и движения камеры
  • Время выполнения не зависит от количества людей в кадре.
  • Предложите поля пространственно-временного сходства (STAF), которые кодируют связи между ключевыми точками в кадрах.
  • Предложите новую временную топологию с перекрестными связями между конечностями, которая может обрабатывать движущиеся цели, движение камеры и размытие движения.

Вот результаты авторов.

Контур

Вступление

Общий трубопровод

  • Особенности VGG
  • PAF и тепловые карты ключевых точек
  • Поля временного сродства (TAF)
  • Вывод

Перекрестная топология

Полученные результаты

Ограничения

Реализация

использованная литература

Мои обзоры

Вступление

Поза человека и отслеживание движения привлекли к себе пристальное внимание в последние несколько лет. Недавно представленный набор данных PoseTrack представляет собой крупномасштабный корпус видеоданных, который позволяет решить эту проблему в сообществе специалистов по компьютерному зрению.

Есть еще несколько работ по этой проблеме. Однако ни один из этих методов не может работать в реальном времени, как обычно:

  1. Следуйте нисходящим методам обнаружения и отслеживания задач, которые требовали дополнительных вычислений по мере увеличения количества людей.
  2. Требовать автономных вычислений или стека кадров, что снижает скорость и не дает лучших результатов для отслеживания, чем базовый уровень венгерского алгоритма.

В этой статье авторы стремятся создать по-настоящему онлайн-средство оценки и отслеживания двухмерных поз для нескольких людей в режиме реального времени. Автор периодически работает над видео, чтобы сделать подход в реальном времени. Они используют информацию из предыдущего кадра, комбинируя 1) тепловые карты ключевых точек, 2) поля сродства частей и 3) поля пространственно-временного сродства (STAF).

Авторы расширяют поле Поля сродства частей в OpenPose из CVPR 2017. Авторы этой статьи также являются автором OpenPose. Не стесняйтесь проверить нашу предыдущую запись в блоге об OpenPose.

Общий трубопровод

На приведенном выше рисунке показан общий конвейер алгоритма пространственно-временных полей сходства (STAF). Видеокадры обрабатываются периодически во времени, включая:

  • Извлеките функции VGG.
  • Извлечь поля схожести деталей (PAF)
  • Извлеките тепловые карты ключевых точек
  • Извлекайте связи между ключевыми точками в кадрах в виде полей временной привязки (TAF).

Особенности VGG

Каждый кадр обрабатывается магистралью VGG для извлечения функций VGG. Эта часть не требует информации о предыдущих кадрах.

Для кадра It во время t видео они рассчитывались как:

PAF и тепловые карты ключевых точек

Тепловые карты PAF и Keypoints очень похожи на подход OpenPose, за исключением того, что они также будут использовать информацию из предыдущего кадра.

В статье есть три метода вычисления PAF:

  1. Использовать данные 5 предыдущих кадров.
  2. Используйте только 1 предыдущий кадр.
  3. Оцените PAF и TAF одновременно.

В своих экспериментах они обнаружили, что:

  • Метод 1 дает хорошие результаты, но он самый медленный из-за рекурсивных стадий.
  • Метод 2 увеличивает скорость без существенной потери производительности.
  • Метод 3 - самый трудный для обучения, но он самый быстрый.

В этом блоге мы обсуждаем только метод 2. Для других методов проверьте исходную бумагу.

Метод 2 вычисляет PAF и ключевые точки за один проход следующим образом:

Поля временного сродства (TAF)

Поля временной привязки (TAF) кодируют связи между ключевыми точками в кадрах.

Эти TAF представляют собой векторные поля, которые указывают направление, в котором каждый сустав тела будет двигаться от кадра I t-1 до кадра It. TAF также представлены в статье Андреас Деринг и др..

На следующем изображении TAF представлены синей стрелкой RtRt.

TAF зависят от функций VGG и PAF как из предыдущего, так и из текущего кадров, а также от TAF из предыдущего кадра следующим образом:

Вывод

И предполагаемые PAF, и TAF сортируются по их оценкам, прежде чем вывести полные позы и связать их между кадрами с уникальными идентификаторами.

Вот шаги: Просмотр каждого PAF в отсортированном списке:

  • Инициализировать новую позу, если обе ключевые точки в PAF не назначены
  • Назначена 01 ключевая точка: добавить в существующую позу
  • Назначены обе ключевые точки: обновите оценку PAF в позе до той же самой позы.
  • Обе ключевые точки назначены разным позам: объедините две позы.
  • Назначьте id каждой позе в текущем кадре с наиболее частым идентификатором ключевых точек из предыдущего кадра.

Вот подробный алгоритм из оригинальной статьи:

Перекрестная топология

Существует три возможных варианта топологии для STAF.

Топология A является TAF по ключевым точкам и не имеет ассоциативных свойств, когда у ключевой точки минимальное движение или когда появляется новый человек.

Топология B и Топология C - это перекрестно связанные топологии конечностей. Автор показывает, что сшитые топологии конечностей могут решить проблему движения из топологии A. При минимальном движении TAF просто становятся PAF на этой конечности.

В бумажных экспериментах Топология C недостаточно эффективна по сравнению с Топологией B.

Полученные результаты

  • Этот метод может обеспечить высокую точность даже при падении частоты кадров до 6 Гц.

  • Метод позволяет достичь высокой точности и быстрой скорости вывода.

  • Этот метод позволяет достичь конкурентных результатов в наборе данных PoseTrack.

Ограничения

У этой работы есть некоторые ограничения:

  • В этот документ не встроен модуль повторной идентификации для обработки случаев ухода людей и их повторного появления на месте происшествия.
  • Этот метод не может обрабатывать изменения сцены. Следовательно, может потребоваться обнаружить изменения сцены и перезапустить процесс с этого кадра.

Реализация

Эта статья находится в открытом доступе в авторском репозитории: soulslicer / openpose.

Это форк из репозитория OpenPose. В ближайшее время они будут объединены, и вы сможете использовать его прямо из OpenPose.

использованная литература

Мои обзоры

Классификация изображений: [NIPS 2012] AlexNet
Сегментация изображений: [CVPR 2019] Pose2Seg
Оценка позы: [CVPR 2017] OpenPose
Отслеживание позы: [CVPR 2019] STAF