Оценка и отслеживание позы человека — это задача компьютерного зрения, которая включает обнаружение, сопоставление и отслеживание семантических ключевых точек. Примерами семантических ключевых точек являются «правые плечи», «левые колени» или «левые стоп-сигналы транспортных средств».

Производительность семантического отслеживания ключевых точек в живом видео требует больших вычислительных ресурсов, что ограничивает точность оценки позы. Благодаря последним достижениям становятся возможными новые приложения с требованиями в реальном времени, такие как беспилотные автомобили и роботы для доставки последней мили.

Сегодня самые мощные модели обработки изображений основаны на сверточных нейронных сетях (CNN). Следовательно, современные методы обычно основаны на разработке архитектуры CNN, специально предназначенной для вывода о позе человека.

Важность оценки позы

При традиционном обнаружении объектов люди воспринимаются только как ограничивающая рамка (квадрат). Выполняя определение и отслеживание поз, компьютеры могут лучше понимать язык человеческого тела. Однако традиционные методы отслеживания позы не являются ни достаточно быстрыми, ни достаточно надежными, чтобы окклюзии были жизнеспособными.

Высокоэффективное обнаружение и отслеживание поз в реальном времени будет определять некоторые из самых больших тенденций в компьютерном зрении. Например, отслеживание позы человека в режиме реального времени позволит компьютерам развивать более детальное и более естественное понимание человеческого поведения.

Это окажет большое влияние на различные области, например, на автономное вождение. Сегодня большинство автокатастроф с участием беспилотных автомобилей происходит из-за «роботизированного» вождения, когда беспилотное транспортное средство совершает разрешенную, но неожиданную остановку, а водитель-человек врезается в беспилотный автомобиль. Благодаря обнаружению и отслеживанию позы человека в режиме реального времени компьютеры могут намного лучше понимать и прогнозировать поведение пешеходов, что обеспечивает более естественное вождение.

Что такое оценка позы человека?

Целью оценки позы человека является предсказание положения частей тела и суставов человека на изображениях или видео. Поскольку движения позы часто обусловлены конкретными действиями человека, знание позы тела человека имеет решающее значение для распознавания действий.

2D-оценка позы —2D-оценка позы основана на обнаружении и анализе координат X, Y суставов человеческого тела из изображения RGB.

3D-оценка позы —3D-оценка позы основана на обнаружении и анализе координат X, Y, Z суставов человеческого тела из изображения RGB.

Моделирование человеческого тела

Расположение частей человеческого тела используется для создания представления человеческого тела (например, позы скелета тела) из визуальных входных данных при оценке позы человека. В результате моделирование человеческого тела является важным компонентом оценки позы человека. Он представляет функции и ключевые точки, извлеченные из визуальных входных данных. Подход на основе моделей обычно используется для описания и вывода о позах человеческого тела, а также для визуализации 2D- или 3D-поз.

В большинстве методов используется жесткая кинематическая модель N-суставов, в которой человеческое тело представлено как объект с суставами и конечностями, содержащий информацию о кинематической структуре тела и форме тела.

Существует три типа моделей человеческого тела:

  • Кинематическая модель, также известная как модель на основе скелета, используется как для 2D-, так и для 3D-оценки позы. Чтобы представить структуру человеческого тела, эта гибкая и интуитивно понятная модель человеческого тела включает в себя набор положений суставов и ориентаций конечностей. В результате модели оценки позы скелета используются для фиксации взаимосвязей между различными частями тела. Кинематические модели, с другой стороны, ограничены в своей способности представлять информацию о текстуре или форме.
  • Плоская модель, также известная как модель на основе контуров, используется для двухмерной оценки позы. Плоскостные модели используются для изображения внешнего вида и формы человеческого тела. Как правило, части тела представляются рядом прямоугольников, которые приблизительно повторяют контуры человеческого тела. Модель активной формы (ASM) — популярный пример того, как можно использовать анализ основных компонентов для захвата полного графика человеческого тела и деформаций силуэта.
  • Объемная модель используется для трехмерной оценки позы. Существует несколько популярных трехмерных моделей человеческого тела, которые используются для трехмерной оценки позы человека на основе глубокого обучения и восстановления трехмерной сетки человека. Например, GHUM и GHUML(ite) — это полностью обучаемые сквозные конвейеры глубокого обучения, обученные на наборе данных с высоким разрешением сканов всего тела более 60 000 конфигураций человека для моделирования статистических и артикулированных трехмерных форм человеческого тела и позы. .

Основные трудности

Оценка позы человека является сложной задачей, потому что внешний вид тела динамически меняется из-за различных типов одежды, произвольной окклюзии, окклюзии из-за угла обзора и контекста фона. Оценка позы должна быть устойчива к сложным изменениям реального мира, таким как освещение и погода.

В результате моделям обработки изображений трудно идентифицировать детализированные координаты суставов. Особенно трудно отследить мелкие и едва заметные стыки.

Оценка позы головы

Распространенной проблемой компьютерного зрения является оценка положения головы человека. Оценка положения головы имеет множество применений, включая помощь в оценке взгляда, моделировании внимания, подгонке 3D-моделей к видео и выполнении выравнивания лица.

Традиционно поза головы вычисляется с использованием ключевых точек на лице цели и решения проблемы соответствия 2D-3D со средней моделью головы человека.

Возможность восстановления трехмерной позы головы является побочным продуктом анализа выражения лица на основе ключевых точек, который основан на извлечении двухмерных ключевых точек лица с использованием методов глубокого обучения. Эти методы устойчивы к окклюзиям и экстремальным изменениям позы.

Оценка позы животного

Большинство передовых методов сосредоточено на обнаружении и отслеживании позы человеческого тела. Однако некоторые модели были созданы для использования с животными и автомобилями (оценка позы объекта).

Оценка позы животного осложняется отсутствием размеченных данных (изображения должны быть аннотированы вручную) и большим количеством самоокклюзии. В результате наборы данных о животных обычно невелики и включают лишь несколько видов животных.

Оценка позы нескольких животных также является сложной проблемой компьютерного зрения из-за частых взаимодействий, которые вызывают окклюзии и затрудняют присвоение обнаруженных ключевых точек правильному человеку. Также трудно заставить очень похожих животных взаимодействовать более тесно, чем обычно люди.

Для решения этих проблем были разработаны методы трансферного обучения путем повторного применения методов от людей к животным. Одним из примеров является оценка и отслеживание поз нескольких животных с помощью DeepLabCut, передового популярного набора инструментов для оценки поз с открытым исходным кодом для животных и людей.

Видео отслеживание позы человека

Многокадровая оценка позы человека в сложных ситуациях сложна и требует больших вычислительных мощностей. В то время как детекторы человеческих суставов хорошо работают на статических изображениях, они часто не работают, когда применяются к видеорядам для отслеживания позы в реальном времени.

Обработка размытия движения, расфокусировки видео, окклюзии позы и невозможности зафиксировать временную зависимость между видеокадрами — самые сложные задачи.

При моделировании пространственных контекстов с помощью традиционных рекуррентных нейронных сетей (RNN) возникают эмпирические трудности, особенно при работе с окклюзиями позы. DCPose, передовая многокадровая система оценки позы человека, использует многочисленные временные подсказки между видеокадрами для облегчения обнаружения ключевых точек.

Самые популярные приложения для оценки позы

  1. Оценка деятельности человека
  2. Обучение роботов
  3. Захват движения и дополненная реальность
  4. Захват движения для консолей
  5. Обнаружение позы спортсмена

Оценка деятельности человека

Отслеживание и измерение активности и движения человека — довольно очевидное применение оценки позы. Архитектуры DensePose, PoseNet и OpenPose часто используются для распознавания активности, жестов и походки.

Обучение роботов

Вместо того, чтобы вручную программировать роботов для следования траекториям, роботы могут быть запрограммированы так, чтобы они следовали траекториям человеческого скелета в позе, выполняющего действие. Просто демонстрируя определенные действия, человек-инструктор может эффективно научить робота этим действиям. Затем робот может рассчитать, как двигать свои артикуляторы для выполнения той же задачи.

Захват движения для консолей

Оценка позы имеет интересное применение для отслеживания движения людей в интерактивных играх. Kinect, например, широко использовал трехмерную оценку позы (используя данные ИК-датчика) для отслеживания движения людей-игроков и использования его для визуализации действий виртуальных персонажей.

Захват движения и дополненная реальность

Приложения CGI — интересное приложение для оценки позы человека. Графика, стили, причудливые улучшения, оборудование и произведения искусства могут быть наложены на человека, если можно оценить его человеческую позу. Отслеживая вариации этой человеческой позы, визуализированная графика может «естественно подходить» человеку во время его движения.

Animoji — хороший наглядный пример того, что возможно. Несмотря на то, что вышеизложенное отслеживает только структуру лица, эту концепцию можно экстраполировать на ключевые точки человека. Те же идеи можно использовать для создания элементов дополненной реальности (AR), которые могут имитировать движения человека.

Распознавание позы спортсмена

Определение позы может помочь игрокам отточить свою технику и добиться лучших результатов. Кроме того, определение позы можно использовать для анализа и изучения сильных и слабых сторон противника, что чрезвычайно полезно для профессиональных спортсменов и их тренеров.

Заключение

Большой прогресс был достигнут в области оценки позы человека, что позволяет нам лучше обслуживать широкий спектр приложений, на которые он способен. Кроме того, исследования в смежных областях, таких как отслеживание поз, могут значительно улучшить его продуктивное использование в различных областях. Оценка позы в 3D — одна из самых увлекательных и сложных задач компьютерного зрения. Сегодня технологии предоставляют множество возможностей для удовлетворения растущего спроса в спортивной индустрии. Это помогает спортсменам улучшить свою технику, избежать травм и повысить выносливость. И в будущем у него есть потенциал, чтобы принести гораздо больше на стол.

TagX занимается сбором и классификацией данных с маркировкой и маркировкой изображений или аннотациями, чтобы сделать такие данные распознаваемыми для машин или компьютерного зрения для обучения моделей ИИ. Если у вас есть разовый проект или вам нужны данные на постоянной основе, наши опытные менеджеры проектов обеспечат бесперебойную работу всего процесса.