Регулярный сезон НБА 2022–2023 годов завершен, игроки закончили записывать свою статистику регулярного сезона, и у нас есть вся информация, необходимая для прогнозирования награды самому ценному игроку НБА.

В большинстве лет обычно есть выдающийся кандидат, чьи выступления были на голову выше остальных, что приводило к разочаровывающему объявлению, о котором все уже знали.

Но 2022–2023 годы — это не большинство сезонов.

В этом году финалистами стали Никола Йокич, Джоэл Эмбиид и Яннис Адетокумбо, все они показали одни из лучших индивидуальных сезонов всех времен в одном и том же году — это беспрецедентно.

Это одна из самых напряженных гонок за награду за всю историю, но не верьте мне на слово — Чарльз Баркли гарантировална Inside the NBA «На мой взгляд, это будет самое близкое голосование за всю историю» — и мы все знаем, что Чак обычно прав во всем.

Примечание: я преданный фанат «Селтикс», и хотя Джейсон Тейтум провел сезон, достойный почти MVP, если я могу каким-то образом исказить данные, чтобы доказать, что он должен победить, я сделаю это ( Я не смог).

Продолжайте читать, потому что мы собираемся использовать AI & Analytics Engine, чтобы предсказать, кто станет MVP НБА 2022–23, используя возможности машинного обучения без единой строки кода.

Проблема с наградой MVP

Трофей MVP — самая престижная индивидуальная награда, вручаемая игроку. Но каковы критерии, чтобы стать MVP? Это должен быть простой вопрос, и должны быть четкие, последовательные параметры, определяющие, что представляет собой MVP, чтобы награда могла присуждаться справедливо каждый год (это не так).

Вопрос в том, чтобы дать определение «ценному», потому что есть много разных мнений.

  • Лучший игрок лиги?
  • Самый результативный игрок лиги?
  • Лучший игрок лучшей команды?
  • Самый ценный игрок для своей команды?
  • Игрок, который больше всего способствует победе?

Там нет четкого ответа. Но вот что мы знаем: нарративы играют большую роль. Усталость избирателей — это реальная вещь, иначе Майкл Джордан и Леброн Джеймс просто продолжали бы побеждать год за годом. Но людям становится скучно, и обидно видеть, как великие люди заканчивают свою карьеру, не заявив об этом в резюме. , Часто вопрос на самом деле не в том, «Кто MVP?» а скорее «Чья очередь выиграть MVP?».

Это делает использование машинного обучения немного сложным, потому что повествование невозможно измерить. Итак, побочный квест, который мы также рассмотрим, — это ответ на вопрос «какие показатели наиболее важны для получения MVP?».

Кандидаты на звание MVP НБА 2023 года

Проблема этого года в том, что у каждого кандидата есть свои претензии; Йокич — самый результативный, Эмбиид — самый доминирующий, а Яннис — самый результативный. Но даже несмотря на это, в каждой категории их мало что разделяет.

У Эмбиида есть одна вещь, которой нет у двух других — повествование. Йокич выигрывал награду в предыдущие два года, а Яннис — двумя годами ранее. Но Эмбиид никогда не выигрывал его, ему удавалось занимать только второе место в последние два года.

Мы видели, как бывшие игроки, а ныне медийные личности, такие как Рэджон Рондо и Джален Роуз, говорят, что Эмбиид — их выбор, а Джей Джей Реддик выбрал Янниса, сославшись на «лучшего игрока в лучшей команде».

Если вы не в курсе или вам нужно освежить в памяти, вот некоторые сводные статистические данные (сыгранные игры, очки/подборы/передачи за игру и командные победы) для каждого игрока, чтобы дать вам представление об их соответствующих сезонах.

Использование машинного обучения для прогнозирования MVP:

Первое, что нам нужно сделать, это понять, как определяется MVP. Каждый год 100–130 представителей СМИ НБА голосуют, что дает игрокам 10, 7, 5, 3 и 1 голос. Голоса подсчитываются, и побеждает игрок, набравший наибольшее количество голосов.

Есть два подхода, которые мы можем использовать для прогнозирования победителя с помощью машинного обучения:

  • Классификация.Первый способ — метод классификации. Мы определяем целевой столбец с именем: «Is_MVP». Он будет содержать 1, если игрок является MVP. 0 иначе. Проблема с этим методом построения обучающих данных заключается в том, что данные сильно несбалансированы. В каждом сезоне участвуют сотни игроков, но MVP всего один. В целом за 40 сезонов в наших данных у нас будет только 40 положительных меток. Это создает технические трудности при обучении и оценке.
  • Регрессия.Второй возможный способ — использование метода регрессии и предсказание числа. Поскольку количество голосов меняется каждый сезон, мы можем использовать показатель «MVP_award_share», который представляет собой количество голосов, деленное на количество возможных голосов. Это работает намного лучше, потому что каждый год около 10–20 игроков получают хотя бы один голос.

Стоит отметить, что мы не принимаем никаких решений о том, что означает ценный или кто провел объективно лучший сезон. Мы смотрим, какие статистические данные коррелируют с признанием MVP в прошлом (побочный квест), и в соответствии с этими критериями предсказываем, у какого игрока в этом году был самый похожий на MVP сезон.

Набор данных

Данные взяты из этого набора данных, который собрал справочную информацию о баскетболе и собрал статистику каждого игрока за каждый сезон с 1982 по 2022 год. Есть несколько групп статистических данных, которые мы будем использовать для прогнозирования переменной доли MVP:

Сыгранные игры и процент выигрышей

Некоторые скромные, но важные статистические данные, количество игр, в которых играет игрок, и сколько игр выиграла его команда. С обоими есть небольшая проблема, потому что с 1982 года было 4 сезона, в которых общее количество сыгранных игр было меньше 82 (два из-за локаутов и два из-за ковида). Поэтому я скорректировал их так, чтобы они были процентом от возможных доступных игр.

Подсчет статистики за игру

Это стандартная баскетбольная статистика: сколько очков, подборов, передач, перехватов, блокировок и потерь они набрали в среднем за игру, суть вы поняли.

Статистика в процентах за игру

Есть небольшая проблема при обсуждении статистики по играм. Темп лиги меняется с течением времени; В 80-х и 2020-х команды играли быстро, а в 90-е — медленно. Игроки в более динамичные эпохи имеют больше владений для записи статистики за игру, поэтому включение процентных версий статистики за игру помогает приспособиться к этому.

Точность стрельбы

Процент точных попаданий (TS%) — это статистика, учитывающая, что трехочковые лучше, чем двухочковые, и учитывающая точность штрафных бросков. В идеальном мире мы бы скорректировали разные эпохи, используя % истинной стрельбы по отношению к среднему показателю лиги (TS%+), но этих данных не было в наборе данных, который я использовал. Ааа ну ничего страшного.

Расширенные показатели

Ах, да, продвинутые метрики, фраза, которая заставляет содрогаться старожилов НБА. Это различные показатели, созданные учеными, увлеченными спортом, с целью количественной оценки того, насколько хорош спортсмен. Мы будем использовать следующие:

  • Рейтинг эффективности игрока (PER): показатель производительности в минуту, стандартизированный таким образом, что средний показатель по лиге равен 15.
  • Доля выигрышей (WS, OWS, DWS): оценка количества выигрышей, внесенных игроком. Это также имеет варианты нападения и защиты.
  • Box Plus/Minus (BPM, OBPM, DBPM):приблизительная оценка количества очков за 100 владений мячом, набранных игроком выше среднего игрока лиги, в пересчете на среднюю команду. Это также имеет варианты нападения и защиты.
  • Стоимость по сравнению с замещающим игроком (VORP): оценочное значение очков за 100 КОМАНДНЫХ владений, которые игрок внес выше уровня замены (-2,0), переведенное в среднюю команду и пропорционально Сезон из 82 игр.

Вам не нужно точно знать, как они все рассчитываются, и различия между ними, потому что это не очень важно. Просто помните, что, как правило, чем выше число = тем лучше они играли.

Методология

Фильтрация данных

Первым шагом является обработка обучающих данных. С более чем 17 000 записей сезоны с ненулевой долей MVP составляют около 3% данных, поэтому их стоит отфильтровать. Первое, что приходит на ум, — это отфильтровать сезоны, в которых либо было сыграно мало игр, либо несколько минут за игру. Поэтому я ограничил обучение только тем, у кого есть;

  • Более 30 минут за игру
  • Более 60% сыгранных игр (эквивалентно 49 в обычном сезоне из 82 игр)

Это сократило набор обучающих данных до 3500 записей, где ненулевая доля MVP составляла 15% от общего набора данных. В каждом сезоне было примерно 80–90 квалифицированных игроков. Интересно отметить, что количество игроков, получивших право голоса, имеет тенденцию к снижению, а это означает, что за последнее десятилетие решение стало более единогласным.

Машинное обучение с AI & Analytics Engine

Когда данные готовы, пришло время перейти к AI & Analytics Engine.

Первым шагом является загрузка обучающих данных, которые модели машинного обучения используют для прогнозирования неизвестных данных 2023 года. Как уже упоминалось, это проблема регрессии, потому что мы прогнозируем числовое значение для столбца доли награды MVP.

Следующим шагом является определение набора функций или предикторов, которые важны. Было важно отменить выбор информации об игроке, такой как имя и команда, потому что мы хотим убедиться, что модели не путаются из-за корреляции и причинно-следственной связи.

Обучение модели

Следующий этап – построение моделей. Я построил три разные модели, все с использованием разных алгоритмов машинного обучения на основе дерева, которые имеют разные способы обучения на данных. Несмотря на то, что все они имеют довольно схожие качества прогнозирования (оценки R2), они работают по-разному и дают разные результаты, поэтому будет взято среднее из трех.

Получение прогнозов

После того, как каждая модель прошла обучение, последним шагом является загрузка тестовых данных сезона 2022–2023 годов, где доля MVP явно неизвестна. Engine выдает файл CSV, мы просто повторяем этот процесс для каждой из трех моделей, а затем можем поместить его в электронную таблицу и посмотреть результаты.

Спешите получить результаты уже сейчас

Какая статистика коррелирует с получением MVP

Теперь о том маленьком побочном квесте, что был раньше — давайте проверим те характеристики, в которых игроки MVP исторически были очень сильны. Вкладка «Важность функций» в движке позволяет нам точно увидеть, насколько каждая функция влияет на каждую модель, вот результаты.

Доля выигрышей, рейтинг эффективности игроков и процент проигрышей — все это ведущие показатели, которые входят в четверку лучших по всем трем моделям. В регрессионных моделях XGBoost и LightGBM PPG занимает 3-е место по значимости, тогда как в рандомизированных деревьях он занимает 6-е место (что играет большую роль в прогнозах каждой модели).

Обладателем титула MVP НБА 2023 года станет…

Ну наконец-то результаты. Вот они.

Мы видим, что чрезвычайно рандомизированная модель деревьев в значительной степени благоприятствует Jokic, тогда как регрессии XGBoost и LightGBM умеренно благоприятствуют Embiid. Все трое считают, что сезон Янниса был сильным, но не совсем самым ценным игроком.

После всей этой работы разница между Эмбиидом и Йокичем в среднем по всем трем моделям остается незначительной. На мой взгляд, это будет Эмбиид из-за фактора, который машинное обучение не может количественно определить — повествования. Он был так близок последние два года, трудно представить, что это не идет ему на пользу.

ПРИМЕЧАНИЕ: MVP только что был объявлен, и Джоэл Эмбиид действительно выиграл с долей MVP 0,915, Йокич занял второе место с 0,674, а Яннис - третье с 0,606. Я также рад сообщить, что Джейсон Татум занял четвертое место по общему мнению с результатом 0,280.

This post is part of my ongoing series of blog articles on using machine
learning algorithms in the AI & Analytics Engine to predict sport events
and results. 

Predicting the 2022 World Cup with Machine Learning
Which nation will win the worlds largest sporting event?

Predicting the 2023 NBA MVP with Machine learning
Who will claim MVP honors in one of the tighest races in memory?

Check them out if you're interested! And if you have any requests, let me
know, I'm available on linkedin.