1. Отдельное обучение независимым частям (TIPSy-GAN): повышение точности и стабильности в неконтролируемой состязательной оценке позы человека из 2D в 3D (arXiv)

Автор:Питер Харди, Сринандан Дасмахапатра, Хансунг Ким

Аннотация: мы представляем TIPSy-GAN, новый подход к повышению точности и стабильности при неконтролируемой оценке позы человека из 2D в 3D. В нашей работе мы показываем, что кинематический скелет человека не следует рассматривать как одну пространственно созависимую структуру. На самом деле, мы считаем, что когда во время обучения предоставляется полная 2D-поза, возникает неотъемлемая предвзятость, когда 3D-координата ключевой точки пространственно созависима от 2D-местоположений всех других ключевых точек. Чтобы исследовать нашу теорию, мы следуем предыдущим состязательным подходам, но обучаем два генератора на пространственно независимых частях кинематического скелета, туловище и ногах. Мы обнаружили, что улучшение цикла самосогласованности 2D-репроекции является ключом к снижению ошибки оценки и, следовательно, вводит новые ограничения согласованности во время обучения. Модель TIPSy создается путем извлечения знаний из этих генераторов, которые могут предсказывать трехмерные координаты для всей двухмерной позы с улучшенными результатами. Кроме того, мы обращаемся к вопросу, оставшемуся без ответа в предыдущей работе, с подробным описанием того, как долго нужно тренироваться для действительно неконтролируемого сценария. Мы показываем, что два независимых генератора, обучающихся враждебно, обладают большей стабильностью, чем одиночный генератор, который рухнет из-за того, что враждебная сеть станет нестабильной. TIPSy уменьшает среднюю ошибку на 18% по сравнению с базовым соло-генератором. TIPSy улучшает другие неконтролируемые подходы, а также хорошо работает по сравнению с контролируемыми и слабо контролируемыми подходами во время оценки как для набора данных Human3.6M, так и для набора данных MPI-INF-3DHP.

2.Lite Pose: эффективная архитектура для двухмерной оценки позы человека (arXiv)

Автор: Ихан Ван, Муян Ли, Хань Цай, Вэй-Мин Чен, Сун Хань

Вывод:оценка позы играет решающую роль в приложениях, ориентированных на человека. Однако сложно развернуть современные модели оценки положения на основе HRNet на граничных устройствах с ограниченными ресурсами из-за высокой вычислительной стоимости (более 150 GMAC на кадр). В этой статье мы изучаем эффективную архитектуру для оценки позы нескольких человек в режиме реального времени на краю. Мы показываем, что ветви высокого разрешения HRNet избыточны для моделей в области низких вычислений с помощью наших экспериментов с постепенным сжатием. Их удаление повышает как эффективность, так и производительность. Вдохновленные этим открытием, мы разрабатываем LitePose, эффективную архитектуру с одной ветвью для оценки позы, и представляем два простых подхода для расширения возможностей LitePose, включая Fusion Deconv Head и Large Kernel Convs. Fusion Deconv Head устраняет избыточность в ветвях с высоким разрешением, позволяя объединять функции с учетом масштаба с низкими издержками. Большие преобразования ядра значительно улучшают емкость модели и рецептивное поле, сохраняя при этом низкие вычислительные затраты. При увеличении вычислений всего на 25% ядра 7x7 достигают +14,0 mAP лучше, чем ядра 3x3 в наборе данных CrowdPose. На мобильных платформах LitePose сокращает задержку до 5,0 раз без ущерба для производительности по сравнению с предыдущими современными эффективными моделями оценки позы, расширяя границы оценки позы нескольких человек в реальном времени. Наш код и предварительно обученные модели выложены на https://github.com/mit-han-lab/litepose.

3. Быстрая и масштабируемая оценка позы человека с использованием облака точек mmWave (arXiv)

Автор :Сижэ Ан, Умит Й. Ограс

Вывод:радар миллиметрового диапазона (mmWave) может обеспечить оценку позы человека с высоким разрешением при низких затратах и ​​вычислительных требованиях. Однако облако точек данных mmWave, являющееся основным входом для алгоритмов обработки, является очень разреженным и несет значительно меньше информации, чем другие альтернативы, такие как видеокадры. Кроме того, скудные помеченные данные mmWave препятствуют разработке моделей машинного обучения (ML), которые могут обобщаться на невидимые сценарии. Мы предлагаем быструю и масштабируемую структуру оценки позы человека (FUSE), которая сочетает в себе многокадровое представление и метаобучение для решения этих проблем. Экспериментальные оценки показывают, что FUSE адаптируется к невидимым сценариям в 4 раза быстрее, чем современные подходы к обучению с учителем, и оценивает координаты человеческих суставов со средней абсолютной ошибкой около 7 см.

4.ViTPose: базовые линии простого преобразователя зрения для оценки позы человека (arXiv)

Автор: Юфэй Сюй, Цзин Чжан, Цимин Чжан, Дачэн Тао

Вывод:недавно специализированные преобразователи зрения были адаптированы для оценки позы человека и достигли превосходной производительности благодаря сложным конструкциям. Однако до сих пор неясно, могут ли трансформеры простого зрения облегчить оценку позы. В этой статье мы делаем первый шаг к ответу на вопрос, используя простой и неиерархический преобразователь зрения вместе с простыми декодерами деконволюции, называемыми ViTPose, для оценки позы человека. Мы демонстрируем, что трансформер простого зрения с предварительным обучением MAE может получить превосходную производительность после точной настройки наборов данных оценки позы человека. ViTPose обладает хорошей масштабируемостью в отношении размера модели и гибкостью в отношении входного разрешения и количества токенов. Кроме того, его можно легко предварительно обучить, используя немаркированные данные позы, без необходимости в крупномасштабных восходящих данных ImageNet. Наша самая большая модель ViTPose, основанная на магистрали ViTAE-G с 1 миллиардом параметров, обеспечивает наилучшие 80,9 mAP в тестовом наборе MS COCO, в то время как ансамблевые модели устанавливают новый уровень техники для оценки позы человека, т.е. , 81,1 мАд. Исходный код и модели будут размещены на https://github.com/ViTAE-Transformer/ViTPose.