Лето здесь! По всей Европе температура стремительно растет, и после долгого и трудного года пандемии люди максимально используют хорошую погоду. А с летом спорт идут рука об руку. В этом году, безусловно, было захватывающее и неоднозначное спортивное лето, но событие, за которым я буду внимательно следить, обычно больше ассоциируется с грязными лужами, чем с жаркими летними вечерами. Я, конечно, говорю о регби.

The British & Irish Lions - это пригласительный тур для лучших игроков из «четырех стран»: Англии, Шотландии, Уэльса и Ирландии. Команды собираются раз в четыре года, чтобы сыграть за одну из ведущих команд Южного полушария: Новую Зеландию, Австралию или Южную Африку. В этом году «Львы» отправились в Южную Африку, где им предстоит сразиться с действующими чемпионами мира в изнурительной серии из трех контрольных матчей, а также серии игр-разминок с некоторыми региональными командами.

Итак, при чем здесь аналитика данных? Несколько недель назад я просматривал социальные сети и наткнулся на прогнозы спортивного эксперта о стартовом составе на первый тестовый матч в серии 24 июля. Моя первая мысль заключалась в том, что это определенно был не тот состав, который я выбрал или ожидал, а вторая мысль, к сожалению, была такой: Интересно, можем ли мы выбрать что-нибудь получше, используя аналитику.

Я видел другие демонстрации и примеры в спортивной аналитике, где вы, возможно, выбираете фантастическую лигу с помощью аналитики, где вы можете использовать процедуры оптимизации с учетом бюджетных ограничений. Но подобрать состав «Львов» по ​​номерам - совсем другая задача.

Во-первых, мы выбираем лучший стартовый состав из игроков, попавших в шорт-лист. Они уже сели на самолет в Южную Африку и тренировались в лагерях, готовясь к отбору. Здесь нет никаких «бюджетных» ограничений - тренеру просто нужно выбрать лучшую команду, которая будет противостоять Южной Африке, из фиксированного набора игроков. Этот состав, вероятно, будет меняться между разными тестами на основе развития тактики, травм и предположений, какую сторону выберут «Боки».

Цель

Цель этого упражнения состояла в том, чтобы предложить модель, которая генерирует стартовый состав на основе данных об эффективности и весовых коэффициентов предпочтений аналитиков. Я хотел создать модель, которая была бы достаточно гибкой, чтобы ее можно было настроить для получения наилучшей стороны, даже если изменятся игровые предпочтения. В моделировании и оптимизации это часто называют анализом чувствительности. Это также имеет очень практическое применение для этого набора данных; если тренер хотел повторно запустить модель, чтобы выбрать сторону, которая лучше подходит для чисто атакующей или оборонительной игры, нужно было бы только изменить веса параметров, чтобы повторно выбрать сторону.

В этом блоге мы также рассмотрим, как выбор между первым и вторым тестами меняется в зависимости от доступности отрядов.

Вы можете прочитать блог с подробным техническим погружением из первого тестового матча здесь: https://communities.sas.com/t5/SAS-Communities-Library/Using-SAS-Viya-to-Select-the-British-amp- Команда «Ирландские львы по регби / ta-p / 755754 »

Выбор игроков осуществляется по двоякому подходу. Во-первых, каждая позиция имеет взвешенный рейтинг предпочтений на основе набора входных данных с использованием алгоритма PROMETHEE. Здесь мы получаем полный рейтинг предпочтений для каждого подходящего игрока каждой позиции. Поскольку многие игроки занимают несколько позиций, эти игроки получают ранг за каждую позицию, которую они могут занять.

Когда у нас есть полные рейтинги по позициям, мы сокращаем список как Проблема линейного присвоения, решаемая как сопоставление минимального веса в двудольном ориентированном графе.

Этот процесс выполняется дважды - сначала для стартового состава (позиции 1–15), а затем снова для оставшихся игроков, заполняющих скамейку запасных (позиции 16–23). Единственная разница между этими шагами - это изменение наших весов предпочтений. При выборе скамейки запасных мы увеличиваем весовые коэффициенты предпочтений для количества позиций, которые может занять игрок, поскольку мы часто хотим, чтобы вспомогательные игроки на скамейке запасных покрывали возможные травмы в матче.

Конечно, как и любая модель, она лучше всего служит руководством для принятия бизнес-решений на основе данных - и ее следует рассматривать как инструмент принятия решений, а не как де-факто оптимальное решение. Я считаю, что это особенно актуально для чего-то вроде выбора команды, потому что есть элемент знаний в предметной области, на который полагается со стратегической точки зрения, и многие переменные в модели могут иметь субъективный элемент. Например, если вы хотите выбрать лучшего игрока по воротам, то выбор его исключительно на основе их точности удара вводит в заблуждение, поскольку существует множество факторов, таких как игровая точка, ветер, угол и т. Д., Которые могут повлиять на точность удара. Следовательно, то, как вы определяете точность ударов ногами, может зависеть от того, что вы ищете в игроке.

То же самое можно сказать и о чрезмерной зависимости от количественных показателей при выборе игрока в отдельности. Возьмем, к примеру, положение маховика. Во многих моделях стартовой 10 выбран Оуэн Фаррелл. Причина этого очень проста. У него много матчей за сборные, предыдущие игры за «Лайонс», и в среднем у него очень хорошие показатели результативности, он хорошо известен своими точными ударами ногами. Он часто попадает под пристальное внимание, так как не так изобретателен в распределении и организации игр, как другие мухоловки. Совсем недавно он играл за сборную Англии в 12 лет, а разыгрывал, как правило, Джордж Форд. Само собой разумеется, что математическая модель для выбора игроков будет выбирать игроков, глядя на числа. Если вы не можете определить метрику для творчества или яркости, она не будет учитываться при моделировании выбора игрока.

Окончательным решением для этого проекта было создание интерактивной панели инструментов с несколькими выбранными сторонами и возможностью ввода нового набора вариантов выбора аналитиков для динамического повторного выбора стороны. На рисунке 1 показан интерактивный отчет, встроенный в SAS Visual Analytics. Здесь показаны предварительные выборы для различных весов предпочтений, связанных с такими атрибутами командного уровня, как атакующий, защитный, молодой и опытный.

Ценность этой панели инструментов заключается в том, чтобы увидеть, как модель отбирает игроков на основе результатов лиги и международных соревнований. Если посмотреть на «атакующую» сторону, то тут интересный состав. Есть игроки «болтера», которые не имели большого международного опыта, но зажгли в этом сезоне свои внутренние лиги, в первую очередь Сэм Симмондс и Луи Рис-Заммит. Али Прайс также был выбран в схватке, когда, что интересно, он был выбран в первом тестовом матче перед Конором Мюрреем, чтобы получить свою первую бейсболку Lions.

Что также делает этот отчет интересным, так это то, что каждый из игроков, выбранных в команду, был выбран в качестве претендента на стартовый состав, и у каждого болельщика будет свое мнение о том, кто заслуживает стартового места, и красота этой панели инструментов заключается в том, что в зависимости от того, как изменяются параметры, каждый игрок получает справедливую оценку.

Рисунок 1 - Панель моделирования выбора команды

Данные

Для этого проекта я мог использовать только открытые наборы данных, доступные в Интернете. Статистика результатов была собрана на уровне игроков для Чемпионата шести наций за последние три года (2021–2019). Шесть Наций - это ежегодное международное соревнование между ведущими сторонами Северного полушария: Англией, Уэльсом, Шотландией, Ирландией, Францией и Италией.

Помимо статистики выступлений на международном уровне, важно было показать результаты национальных лиг. Я собрал данные национальных лиг для текущего сезона английской Премьер-лиги Галлахера и Объединенного чемпионата по регби (ранее Pro14).

Я дополнил эти данные некоторыми открытыми наборами данных с таких сайтов, как Википедия, для биографии отдельных игроков (рост, вес, положение и т. Д.)

Работа с общедоступными данными имеет свои ограничения, были некоторые различия в статистике между лигами, а открытые данные могут содержать недостающие или неверные данные. Открытые данные также являются каплей в цифровом океане реальных спортивных данных, учитывая, что игроки носят GPS-трекеры, дающие точные показатели для каждого момента игры. С более богатым набором данных эти выборки могут сильно отличаться.

Регби - также невероятно сложная игра, из-за которой игроки регулярно получают травмы. Модель и набор данных основаны на последней команде, выбранной тренером Уорреном Гатландом.

Даже когда я пишу этот блог, возможно, что составы меняются, игроки выздоравливают и получают травмы. Совсем недавно Финн Рассел выглядел так, как будто он, возможно, вернулся в борьбу после восстановления после травмы ахилла, а Вин Джонс теперь под сомнением с травмой плеча.

Панель моделирования

Поскольку в модельном процессе присутствует сильный элемент субъективности, имеет смысл переместить его из среды, ориентированной на код, в руки экспертов в предметной области. Чтобы дать пример того, как это может работать, мы используем интерактивную панель управления с SAS Visual Analytics, которая за кулисами вызывает службу выполнения заданий для интерактивного запуска модели SAS.

На рисунке 2 вы можете увидеть, как код SAS плавно встраивается в панель Visual Analytics Dashboard с помощью HTML-интерфейса. Поскольку существует так много параметров, с которыми нужно возиться, имеет смысл разрешить аналитикам загружать файл настроек CSV, а не вручную редактировать каждую ячейку в браузере. Аналитики могут просто поиграть с переменными, загрузить файл в интерфейс, а затем повторно запустить моделирование.

Рисунок 2 - Интерфейс службы выполнения заданий в Visual Analytics

Выходные данные моделирования отображаются в новой вкладке браузера, чтобы вы могли убедиться, что модель запущена. Приятной функцией также является возможность загрузки отчета PowerPoint из выходных данных Job Execution Service. Этот файл PowerPoint создается с использованием ODS, в то время как сценарий моделирования выполняется в серверной части.

Рисунок 3 - Выходные данные службы выполнения заданий со ссылкой для загрузки

Рисунок 4 - Выходные данные для загрузки отчета PowerPoint

Затем мы можем в интерактивном режиме сравнивать результаты моделирования нескольких моделей на интерактивной вкладке «Визуальная аналитика». Каждый раз, когда модель запускается, она добавляется в групповую таблицу, которая маркирует модель по весу файла. На рисунке 5 вы можете видеть, что у меня есть несколько весов моделей в зависимости от типа команды, которую я хочу выбрать. Затем на рисунке 6 вы можете увидеть результат интерактивного отчета, в котором мы визуализируем наш выбор. Стартовый состав визуализируется с индивидуальным макетом, имитирующим расположение полей.

Рисунок 5 - Файлы веса модели

Рисунок 6. Интерактивная панель инструментов для моделирования моделей

Насколько хорошо работает модель SAS?

Я провел пять симуляций, основанных на различных весах предпочтений: атакующий, защитный, опытный, нейтральный и молодой.

Если посмотреть на количество выбранных игроков, во многих сценариях было выбрано несколько игроков, как показано на рисунке 7.

Рисунок 7. Выбор игроков в разных моделях

Итак, как модель работает в сравнении с фактическим отбором команды?

Фактическая команда, выбранная для 2-го тестового матча в субботу 31 июля:

  1. Мако Вунипола (выбран 4/5 раз в моделях SAS)
  2. Люк Коуэн-Дики (выбран 2/5 раз в моделях SAS)
  3. Тадг Ферлонг (выбран 5/5 раз в моделях SAS)
  4. Маро Итое (выбрано 5/5 раз в моделях SAS)
  5. Алан Вин Джонс (выбран 0/5 раз в моделях SAS)
  6. Кортни Лоуз (выбрана 5/5 раз в моделях SAS)
  7. Том Карри (выбран 3/5 раз в моделях SAS)
  8. Джек Конан (выбран 1/5 раз в моделях SAS)
  9. Конор Мюррей (выбран 2/5 раз в моделях SAS)
  10. Дэн Биггар (выбран 4/5 раз в моделях SAS)
  11. Духан Ван Дер Мерве (выбран 1/5 раз в моделях SAS)
  12. Робби Хеншоу (выбран 5/5 раз в моделях SAS)
  13. Крис Харрис (выбран 1/5 раз в моделях SAS)
  14. Энтони Уотсон (выбран 2/5 раз в моделях SAS)
  15. Стюарт Хогг (выбран 4/5 раз в моделях SAS)
  16. Кен Оуэнс (выбран 2/5 раз в моделях SAS)
  17. Рори Сазерленд (выбран 5/5 раз в моделях SAS)
  18. Кайл Синклер (выбран 5/5 раз в моделях SAS)
  19. Тадг Бейрне (выбран 5/5 раз в моделях SAS)
  20. Taulupe Faletau (выбрано 3/5 раз в моделях SAS)
  21. Али Прайс (выделено 5/5 раз в моделях SAS)
  22. Оуэн Фаррелл (выбран 4/5 раз в моделях SAS)
  23. Эллиот Дейли (выбран 5/5 раз в моделях SAS)

Глядя на гистограмму частот выбора на рисунке 8, мы видим, что почти 40% игроков в реальной команде выбираются в каждой модели SAS. Модель работает достаточно хорошо, и менее 20% игроков выбираются моделями SAS один раз или реже.

Рисунок 8 - Общая производительность модели для второго тестового совпадения

По сравнению с выборками, сгенерированными для 1-го тестового матча, как показано на Рисунке 9, более 30% игроков были выбраны в каждой отдельной модели. Учитывая, что данных было гораздо меньше, чем у спортивных команд, фактически был доступ к моделям, показавшие удивительно хорошие результаты в обоих тестовых матчах.

Рисунок 9 - Общая производительность модели для первого тестового совпадения

Сравнивая результаты выбора на основе SAS для 2-го тестового матча, мы видим, что модель по-прежнему работает хорошо, хотя исключение Алуна Вина Джонса вызывает подозрения. Возможно, модель вносит предвзятость в выбор, поскольку он больше всего отклоняется от среднего возраста группы, несмотря на блестящую статистику успеваемости и богатый опыт. Преимущество перехода к решениям, основанным на данных, состоит в том, чтобы по возможности исключить человеческую предвзятость при принятии решений, поэтому это важная иллюстрация важности тщательного выбора входных данных модели и необходимости тщательного изучения результатов модели, чтобы выявить любые проблемы.

Резюме

В целом модели SAS обеспечивали разумное моделирование команд. Учитывая относительную нехватку данных, я не ожидал, что он правильно выберет полную линейку, но модели на самом деле очень хорошо работают, особенно если рассматривать их в совокупности. Это повторяет мысль, высказанную мною во введении: модель лучше всего служить руководством, с помощью которого вы затем можете принять обоснованное решение.

Читая пресс-релиз Уоррена Гатланда, он так же выбирает свою команду - он не выбирает полную сторону, он просит остальную команду тренеров придумать свои 23, а затем они сравнивают и обсуждают результаты.

Полный пресс-релиз о том, как они сделали свой выбор, находится здесь: https://www.lionsrugby.com/2021/07/21/lions-selection-for-first-test-hardest-ever-for-gatland/

Для получения дополнительной информации о наших предложениях по спортивной аналитике посетите наш веб-сайт Спортивная аналитика с SAS.

Оригинальный пост здесь.

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг. Вы также можете пройти обучение по науке о данных по запросу, где бы вы ни находились, с нашей платформой Ai + Training.