Недавно я просматривал веб-сайт CVPR и наткнулся на его компьютерное зрение в спортивной мастерской. Я думаю, что спорт - интересное приложение для многих алгоритмов машинного обучения, поскольку спорт в целом очень динамичен и (многие) включает в себя групповую динамику. Поэтому алгоритмы, адаптированные к спорту, могут помочь раздвинуть границы возможного в CV.

Мне всегда было интересно применять машинное обучение в спортивных и развлекательных мероприятиях. В частности, в PaddleSoft я хотел использовать алгоритмы CV для обнаружения различных ударов и маневров на порогах и использовать это, чтобы предсказать, будет ли у гребцов удачная леска или они будут переворачиваться, плавать и т. Д. . Но из-за моих ограниченных знаний я не продвинулся далеко; кроме того, до недавнего времени было мало литературы по этому предмету. Но я рад видеть много новых работ, посвященных такого рода распознаванию сложных событий.

Вот некоторые из документов семинара, которые мне показались особенно интересными и которые, как мне кажется, решают важные проблемы в CV в целом. Для краткости я решил не вдаваться в подробности реализации, а вместо этого сосредоточился на общих темах, представленных в этих работах.

Как научиться забивать олимпийские соревнования:

Авторы: Паритош Пармар и Брендан Тран Моррис

Хотя на первый взгляд подсчет очков олимпийских соревнований может показаться нишевой областью исследований, использование компьютерного зрения для подсчета очков или предоставления обратной связи по действию или деятельности полезно для многих различных областей и задач. Например, авторы заявляют, что методы, аналогичные представленным в их статье, могут обеспечить обратную связь с пациентами, самостоятельно выполняющими физиотерапию, или с людьми, готовящимися к соревнованиям без тренера. Они также заявляют, что их алгоритм может помочь устранить некоторую субъективность при оценке олимпийских соревнований.

Прежде чем перейти к статье, полезно уточнить терминологию:

Распознавание действий: включает классификацию действий, происходящих в видео. (т.е. человек бежит).

Оценка качества действия: включает присвоение числового значения в зависимости от того, насколько хорошо было выполнено действие (т. е. экономия бега человека составляет 8,0).

Оценка качества действий - сложная проблема, потому что различия между действиями с высокой и низкой оценкой часто очень тонкие, и необходимо учитывать всю последовательность (а не только сегмент). Кроме того, в отличие от наборов данных распознавания действий, наборы данных о качестве действий относительно немногочисленны, а те, которые существуют, очень малы. До этой статьи только несколько других авторов исследовали эту проблему.

Авторы предлагают многоуровневый подход к решению данной конкретной задачи. На первом уровне они используют трехмерную сеть для извлечения функций. Затем эти функции передаются на один из трех возможных «вторых уровней». Первый представляет собой простое среднее значение функций уровня клипа или L-SVR, второй - это LSTM с полностью подключенным слоем, а третий - это LSTM для извлечения функций, который затем передает их в L-SVR.

Авторы оценивают свою модель по прыжкам в воду, фигурному катанию и опорному прыжку в гимнастике. Набор данных для дайвинга, который они использовали, представляет собой небольшой набор данных, изначально взятый из документа Массачусетского технологического института Оценка качества действий. Его можно найти здесь. . Они также протестировали свою модель на наборах данных по фигурному катанию и гимнастике. Другой набор данных под названием UNLV, на котором они тестировали, можно найти здесь. Результаты и оценка производительности довольно сложны и не могут быть хорошо обобщены, не прочитав всю статью. Тем не менее, TLDR заключается в том, что C3D-SVR дал наилучшие общие результаты, но не смог обнаружить конкретные ошибки в ходе действий. Это нормально, если вы просто заинтересованы в выставлении оценок, но для того, чтобы предоставить обратную связь, вам, очевидно, также необходимо уметь определять проблемные области действия. Чтобы компенсировать это, они добавили LSTM (то есть C3D LSTM-SVR), который увеличил ошибку между их оценкой и фактическим, но смог обнаружить конкретные ошибки человека, участвовавшего в действии.

В целом, я думаю, что эта статья - важный вклад в, казалось бы, малоизученную область (просто хочу, чтобы они где-нибудь разместили свой код). Вызывает недоумение тот факт, что не проводилось больше исследований, направленных на оценку качества действий, поскольку это могло бы непосредственно помочь любому типу коучинга / обучения.

Непрерывное видео в простые сигналы для обнаружения гребков при плавании с помощью сверточных нейронных сетей:

Авторы: Брэндон Виктор, Жен Хем Стюарт Морган, Дино Миниутти

Распознавание действия, как упоминалось ранее, фокусируется на классификации всего видео как одного действия. Напротив, обнаружение событий включает обнаружение начального и конечного кадров действий (в непрерывном видео) с последующей их классификацией. Эта статья посвящена обнаружению гребков при плавании. Конкретно. Авторы статьи предлагают метод обнаружения дискретных событий . Затем они используют этот метод, чтобы определить, когда на видео появляются плавательные движения.

«Частота гребков - важный показатель, используемый в тренировках по плаванию, и в настоящее время эксперты тратят значительное количество времени, вручную маркируя каждый гребок в видео, чтобы предоставить пловцам статистическую информацию. Мы называем эту задачу обнаружением дискретного события (в отличие от обнаружения события; которое определяет начало и конец действия) ». 1

Обнаружение дискретных событий в отличие от простого обнаружения событий включает определение точных кадров при возникновении события.

Авторы используют CNN для обнаружения этих дискретных событий и отображают их на 1d-плоскость с пиками, обозначающими местоположение гребка плавания (см. Их рисунок 1, если вы запутались). Их CNN также очень хорошо предсказывает любое плавание. или теннисные удары («F-Score = 0,92 и 0,97, соответственно, с допуском на 3 кадра»).

Эта статья вызвала у меня наибольший интерес благодаря ее способности обнаруживать последовательности штрихов. Мне также понравились его объяснения различных типов обнаружения действий и введение идеи дискретного обнаружения событий. Однако, в частности, для меня самым интересным было то, насколько хорошо это применимо к теннису. Я хотел бы проверить его при распознавании гребков.

Распознавание хоккейных игр с помощью интегрированной сети с накоплением песочных часов

Http://openaccess.thecvf.com/content_cvpr_2017_workshops/w2/papers/Fani_Hockey_Action_Recognition_CVPR_2017_paper.pdf

Авторы: Университет Мехрназ Фани Шираз Университет Хельмута Неера в Ватерлоо [email protected] Дэвид А. Клаузи, Александр Вонг, Университет Джона Зелека в Ватерлоо

Мне, как хоккеисту, особенно понравилась эта статья. Авторы статьи пытаются решить проблему распознавания действий в хоккее, поскольку они утверждают, что это может помочь обеспечить ценную обратную связь.

Распознавание действий приносит пользу тренерам, аналитикам и зрителям, предоставляя тренерам и аналитикам контент для оценки результатов игрока стр.29

Тем не менее, авторы отмечают, что существует множество проблем, специфичных для хоккея с шайбой (которые могут быть распространены и на другие виды спорта).

Оценка позы и распознавание действий - сложные задачи в хоккее, которые можно применить к другим видам спорта. Проблемы распознавания действий, характерные для хоккея, включают громоздкую одежду, которая искажает форму тела игрока, футболка команды (белая), которая очень похожа на фон (лед и доски ... стр.29

Авторы называют свою модель ARHN или сетью часов распознавания действий. Фактические детали их модели довольно сложны, поскольку она использует множество различных компонентов. Но на самом базовом уровне их модель работает, преобразуя видеоклип в последовательность изображений, оценивая позу игрока с помощью сети Stacked Hour Glass (и выводя ее как функцию), преобразуя ее с помощью скрытого преобразователя, а затем классифицируя Действие. Вы можете прочитать все подробности в их статье.

Они классифицируют четыре различных действия: прямое катание, кроссоверное катание, предварительный выстрел и пост-выстрел. Обычно они достигают оценок за точность и отзывчивость в диапазоне от 60 до 70 лет.

В целом они достигли довольно хороших результатов, учитывая их ограничения в отношении доступности данных. Было бы интересно посмотреть, насколько хорошо это распознавание действий может отбирать другие события, такие как катание назад, проверка тела и пас. Кроме того, как упоминалось в предыдущей статье, было бы также полезно оценить эффективность этой игры, но это, вероятно, потребует более сложных вариаций методов, описанных в предыдущей статье. Наконец, как мы увидим в следующей статье, в хоккее есть основная командная составляющая, которую авторы здесь не затронули.

Классификация случаев владения шайбой в хоккее.

Авторы Мумита Рой Тора, Цзяньхуэй Чен, Джим Литт

В данной статье предпринята попытка решить проблему распознавания групповой активности в спорте. Распознавание групповой активности в названии подразумевает попытки взглянуть на нескольких людей (или в данном случае на игроков) и определить, что они делают как группа. Хотя полезность распознавания групповой активности в командных видах спорта довольно очевидна, она может быть полезна и за пределами спортивного мира. Одним из вариантов немедленного использования является обеспечение безопасности (например, определение того, грабит ли это место группа людей или нападает ли на кого-то). Тем не менее, распознавание групповой активности действительно может быть полезно практически для любой задачи, которая включает в себя множество видеозаписей взаимодействия нескольких людей. Как и следовало ожидать, «ключ», так сказать, к распознаванию групповой активности - это понимание взаимосвязи между действиями индивидов.

Теперь, вспомнив эти идеи, перейдем к реальной работе. В этой статье авторы рассматривают случаи владения шайбой в хоккее. В частности, они хотят обнаруживать и классифицировать различные типы событий владения шайбой. В основном они сосредоточены на вводе шайбы, выбрасывании шайбы, подборе шайбы (LPR), бросках и передачах. Для этого они используют слой AlexNet f c7 для извлечения функций игрока из ограниченного под-изображения игрока (игроки предварительно идентифицируются с помощью ограниченных прямоугольников в их алгоритме), эти функции затем объединяются в максимальный пул, чтобы учесть взаимодействия игроков, наконец они передаются в LSTM, который выполняет прогноз. Они тестируют несколько различных конфигураций функций и LSTM, о которых вы можете прочитать в статье.

Мне очень понравилась эта статья, потому что я пытаюсь решить очень сложную задачу, требующую взаимодействия нескольких игроков. Как они упоминают в своей статье, я считаю, что наличие хороших функций для описания взаимоотношений между игроками имеет решающее значение для хорошей игры. Как обычно, мне бы очень хотелось увидеть код или дополнение, которое описывает их реализацию более подробно, поскольку воссоздать их настройку будет очень сложно (по крайней мере, для меня) исключительно на основе информации в их статье.

Был и ряд других хороших работ с семинара, которые я не упомянул здесь просто из-за недостатка места, но я рекомендую вам посетить официальный сайт семинара. В основном я выбрал эти три, потому что они обсуждали относительно разные проблемы в разных областях CV в спорте. В основном они обсуждали проблемы, связанные с оценкой качества действий, оценкой позы, обнаружением дискретных событий и обнаружением групповых действий. Я думаю, что все эти статьи показали, каким образом прогресс в, казалось бы, специализированных видах спорта имеет приложение к этой области в целом. Они также вдохновили меня переосмыслить мою цель применения резюме в водном спорте.

Другие ресурсы по применению компьютерного зрения в спорте

Компьютерное зрение в спорте CVPR

Компьютерное зрение в спорте: Издатель Springer.

Распознавание предметной активности в теннисе

Оценка качества действий MIT