Насколько хорошо мы можем предсказать победу на уровне НБА?

Введение

Недавно я завершил проект по анализу данных баскетбола в колледже, где создал показатель для прогнозирования процента побед команды в заданном сезоне. Метрика, которую я назвал «Рейтинг эффективности команды» (TER), была сильным предсказателем с простым процессом расчета и достаточной интерпретируемостью, чтобы помочь командам влиять на победу с большей конкретностью. Однако, хотя TER полезен для баскетбольных команд колледжей, я считаю, что он может быть еще более полезен для команд НБА.

Например, команды НБА, вероятно, будут более успешными в прогнозировании процента побед на предстоящий сезон с TER, чем команды колледжей. Причина в том, что изменчивость данных уменьшается по мере перехода от уровня средней школы к уровню колледжа, а затем к профессиональному уровню. Команда НБА, пытающаяся спрогнозировать вклад нового игрока, обычно имеет доступ к своим данным за предыдущие сезоны на профессиональном уровне. Если новый игрок - новичок, команда может использовать свои данные о баскетболе в колледже или свои данные о зарубежных профессиональных командах. С другой стороны, колледжам обычно приходится иметь дело с данными старших классов с новыми игроками (хотя количество переводов за последние годы увеличилось), и эти данные могут быть довольно ограниченными с высокой изменчивостью, что затрудняет прогнозирование. Кроме того, изменения в составе происходят чаще на уровне НБА, чем на уровне колледжа, поэтому построение команды может играть более важную роль в победе на профессиональном уровне.

Исходя из этого, я подумал, что было бы неплохо посмотреть, может ли TER быть сильным предиктором победы на уровне НБА. В частности, я буду применять большую часть того, что я сделал с данными баскетбола колледжа, к найденным данным НБА — я проанализирую данные, а затем использую TER для прогнозирования процента побед для команд НБА. Если вам интересно, может быть полезно прочитать статью, которую я написал о проекте анализа данных баскетбола в колледже здесь, чтобы узнать контекст.

Данные

Данные, используемые для этого проекта, были взяты из RealGM. Данные содержат общую и расширенную статистику для каждой команды НБА с регулярного сезона 2004–2005 гг. По регулярный сезон 2021–2022 гг. Исходный набор данных содержит 540 команд (строк) и 47 переменных (столбцов), таких как команда, сезон, очки за игру (PPG) и процент побед (% побед) для данной команды. Обратите внимание, что RealGM использует термин дифференциал эффективности (eDiff) для чистого рейтинга. Снимок данных представлен ниже:

Обратите внимание, что переменная Season указывает год, в котором закончился регулярный сезон для данной команды, поэтому «Милуоки Бакс» 2014 года играли в регулярном сезоне 2013–2014 годов. Я выбрал сезон 2004–2005 годов как самый ранний с тех пор, как НБА впервые начала играть с 30 командами, и мне было лень придумывать, как анализировать 29 команд, так что давайте просто притворимся, будто я сделал что-то умное.

Легенду для каждой переменной в наборе данных можно найти здесь.

Исследовательский анализ данных (EDA)

Мне всегда нравится сначала проводить некоторый анализ данных, чтобы изучить набор данных и найти интересные характеристики данных.

Стрельба из трех точек

Распространенной горячей темой в баскетболе в настоящее время является революция трех очков, которая резко изменила то, как играют в игру за последние годы. Мы можем изучить эту тенденцию с 2005 по 2022 год на следующем графике:

Что интересно на графике, так это то, что «всплеск» трехочковых попыток начинается примерно в сезоне 2012–2013 годов, когда команды НБА впервые в среднем набирали не менее 20 трехочковых попыток за игру. По совпадению, в этом же сезоне Стивен Карри побил рекорд Рэя Аллена по трехочковым (на тот момент) за один сезон, набрав 272 трехочковых.

С тех пор команды НБА постоянно увеличивали количество трехочковых попыток каждый сезон, достигая в среднем 35,2 трехочковых попыток за игру в сезоне 2021–2022 годов. Тем не менее, точность за эти годы практически не изменилась. В частности, с 2005 по 2022 год команды НБА постоянно поддерживали средний процент трехочковых (3P%) около 35–36% каждый сезон, несмотря на быстрое увеличение трехочковых попыток. Это также видно на графике выше, когда мы сравниваем три попытки в светло-синей области с тремя точками (3 часа дня) в темно-синей области.

Трехочковые попытки против защиты

Недостатком, который часто возникает при увеличении количества трехочковых бросков, является снижение эффективности защиты. Например, в наборе данных рейтинг защиты или количество очков, разрешенных на 100 владений, для команды положительно коррелирует со средним количеством попыток с тремя очками за игру. Другими словами, команды, которые бросают больше троек, как правило, получают больше очков за 100 владений мячом. Мы можем увидеть эту закономерность на следующем графике рассеяния ниже:

Обратите внимание, что, поскольку рейтинг защиты является статистикой по владениям, мы сравниваем его с количеством трехочковых попыток на 100 владений (а не за игру).

Естественно, отличиться будут команды, которые бросают большое количество троек, при этом хорошо играя в защите. Эти команды находятся в правом нижнем квадранте диаграммы рассеивания выше. Среди этих команд только две находятся в верхнем 85-м процентиле как по рейтингу защиты, так и по трем очкам: «Хьюстон Рокетс» 2014–2015 годов и «Милуоки Бакс» 2019–2020 годов.

Рокетс 2014–2015 годов заняли второе место в Западной конференции и вышли в свой первый финал конференции с 1997 года. Милуоки Бакс 2019–2020 годов имели лучший результат в Восточной конференции и лучший рейтинг защиты в НБА до 2019–2019 годов. Сезон 2020 года был прерван пандемией COVID-19. Бакс были фаворитами на победу в чемпионате НБА в том сезоне, прежде чем проиграли Майами Хит в пузыре НБА 2020 года.

Рейтинг нападения против рейтинга защиты

Мы также можем сравнить атакующий рейтинг команды или очки, набранные за 100 владений, с их оборонительным рейтингом, чтобы определить лучшие команды:

Как и в случае с предыдущей диаграммой рассеяния, лучшие команды будут находиться в правом нижнем квадранте. Среди этих команд только две попали в 95-й процентиль по атакующему рейтингу и 85-й процентиль по защитному рейтингу: «Голден Стэйт Уорриорз» 2015–2016 гг. и «Голден Стэйт Уорриорз» 2016–2017 гг.

Большинство фанатов НБА должны быть хорошо знакомы с обеими этими командами. Голден Стэйт Уорриорз 2015–2016 годов установили лучший рекорд регулярного сезона в истории НБА с результатом 73–9, прежде чем разочаровались в Кливленд Кавальерс в финале НБА 2016 года. Точно так же Голден Стэйт Уорриорз 2016–2017 годов были одной из лучших команд в истории НБА, поскольку Кевин Дюрант решил присоединиться к Уорриорз в качестве свободного агента летом перед началом сезона. Эта команда побила более 20 рекордов НБА, прежде чем победить Кливленд Кавальерс в финале НБА 2017 года.

Процент выигрыша

От «Голден Стэйт Уорриорз» 2016–2017 годов с лучшим результатом в истории НБА до «Шарлотт Бобкэтс» 2011–2012 годов с худшим результатом (7–59) в истории НБА, с 2005 по 2022 год в НБА было много успехов. Мы можем быстро взглянуть на это распределение с помощью графика ниже:

Хотя это и не совсем сбалансировано, мы можем примерно приблизиться к нормальному распределению с процентом выигрышей.

Мы также можем найти некоторые из лучших команд в истории НБА, взглянув на самые высокие показатели побед в данных:

Среди этой группы мы видим несколько чемпионских команд НБА, таких как «Бостон Селтикс» 2007–2008 годов, «Лос-Анджелес Лейкерс» 2008–2009 годов, «Майами Хит» 2012–2013 годов и «Голден Стэйт Уорриорз» 2014–2015 годов.

Рейтинг эффективности команды (TER)

Вы можете более подробно прочитать о рейтинге эффективности команды, или TER, в моей предыдущей статье, посвященной анализу данных баскетбола в колледже, но TER, по сути, является мерой общей эффективности команды, рассчитываемой с использованием простой статистики, такой как очки за игру (PPG), поле. Попытки забить (FGM), перехваты за игру (SPG) и т. д. Веса для каждой переменной представляют собой (округленные) коэффициенты, полученные путем регрессии чистого рейтинга или средней разницы очков на 100 владений по всем переменным, использованным в расчете. В таблице ниже перечислены коэффициенты, полученные в результате регрессии, и соответствующие веса, используемые для каждой переменной:

Обратите внимание, что веса слегка округлены, чтобы сохранить обобщаемость модели. Коэффициенты, которые не являются статистически значимыми (p-значение > 0,05), имеют вес 0 и, следовательно, не включаются в расчет TER. Интересно, что количество передач за игру (APG) имеет ненулевой вес по данным НБА, даже несмотря на то, что эта переменная была исключена из расчета TER по баскетбольным данным колледжей. С указанными выше весами TER рассчитывается следующим образом:

ТЭР = 0,75ППГ - 2ФГА - 0,75ФТА + 1,5ДРБ + 2,25ОРБ + 0,2АПГ + 2САУ + 0,25БЛК + 0,2ПФ - 2ТОВ

прежде чем переменная затем масштабируется, чтобы иметь среднее значение 0 и стандартное отклонение 1. Мы можем визуализировать распределение TER ниже вместе с чистым рейтингом:

Кроме того, мы видим, что обе переменные действительно являются сильными предикторами процента побед, что мы видели и на данных по баскетболу в колледжах:

TER может объяснить более 80% вариации в проценте выигрышей, в то время как чистый рейтинг может объяснить более 93% вариации в проценте выигрышей. Очевидно, преимущество в сторону нетто-рейтинга с точки зрения предсказательной силы, но и у TER есть свои преимущества. Например, в связи с частыми изменениями составов НБА команде может быть проще спрогнозировать вклад нового игрока в очки, а не разницу в очках на 100 владений для всей команды. Другими словами, может быть проще предсказать процент побед в предстоящем сезоне, используя TER, который рассчитывается с использованием статистики очков команды, а не чистого рейтинга.

Мы также можем использовать TER для некоторого анализа данных. Для начала рассмотрим самые эффективные команды 2005–2022 годов:

Хотя мы видим некоторые из тех же команд из таблицы процента побед ранее, есть также несколько новых команд, и как фанат «Клипперс» я очень доволен этой таблицей. Например, в таблицу включены «Лос-Анджелес Клипперс» 2020–2021 годов, команда, которая впервые в истории франшизы вышла в финал Западной конференции. В таблицу также включены недавние чемпионы НБА, такие как «Милуоки Бакс» 2020–2021 годов и «Голден Стэйт Уорриорз» 2021–2022 годов.

Кроме того, мы можем изучить взаимосвязь между эффективностью команды и темпом, в котором она играет. Наряду с трехочковыми попытками команды НБА в последние годы стали играть более быстрыми темпами, поэтому было бы интересно посмотреть, какие команды также смогли играть эффективно. Чтобы найти такие команды, мы строим TER в зависимости от темпа или количества владений за 48 минут:

На приведенном выше графике мы хотели бы посмотреть на команды в правом верхнем квадранте. Среди этих команд только «Милуоки Бакс» в 2019–2021 годах играли с TER и темпами выше 95-го процентиля. С таким игроком, как Яннис Адетокумбо (буквально), управляющим шоу, неудивительно видеть там эти команды «Бакс». Однако в целом между двумя переменными не наблюдается существенной связи (т. е. команды, играющие в медленном темпе, не обязательно более эффективны, и наоборот).

Кластеризация

Прежде чем мы завершим этот проект, я хотел провести кластеризацию, чтобы определить различные стили игры, которые мы можем увидеть в НБА. Этот процесс аналогичен тому, который выполняется с данными баскетбола в колледже, но на этот раз я буду группировать с большим количеством переменных. В частности, я использовал кластеризацию K-средних для кластеризации ORtg, DRtg, 3PA, Pace, TER и Win Percentage. Было создано четыре кластера со следующими средними значениями для каждой переменной в кластерах:

Вместо того, чтобы просеивать все приведенные выше числа, может быть полезно визуализировать кластеры, снова нанеся три попытки набрать очки (на 100 владений) в зависимости от рейтинга защиты:

Кластер 1 — это группа с наименее успешными командами. В среднем они боролись на обоих концах площадки и склонны играть в медленном темпе. В этот кластер входили такие команды, как Charlotte Bobcats 2011–2012 годов и New Jersey Nets 2009–2010 годов. С другой стороны, Кластер 2 состоит из самых успешных команд. Эта группа команд, как правило, эффективно играет на обоих концах площадки и в среднем забрасывает больше троек, чем Кластер 1, несмотря на то, что играет в одинаковом темпе. В этот кластер были сгруппированы такие команды, как «Бостон Селтикс» 2007–2008 годов, «Лос-Анджелес Лейкерс» 2008–2009 годов и «Майами Хит» 2012–2013 годов.

Команды кластера 3 играли в очень быстром темпе, забивая большое количество троек. Делали они это с хорошей эффективностью, и команды в среднем имели рекорды побед. В эту группу входят такие команды, как «Голден Стэйт Уорриорз» 2015–2016 годов, «Голден Стэйт Уорриорз» 2016–2017 годов и «Хьюстон Рокетс» 2017–2018 годов. Наконец, Кластер 4 состоит из команд, стремящихся играть в приличном темпе с эффективностью, близкой к средней. В этот кластер входили такие команды, как Cleveland Cavaliers 2015–2016 годов и Phoenix Suns 2004–2005 годов. Интересно отметить, что Houston Rockets 2014–2015 годов был отнесен к кластеру 4, а Milwaukee Bucks 2019–2020 годов был отнесен к кластеру 3 (см. первый график разброса 3PA и DRtg ранее).

Заключение

Рейтинг эффективности команды (TER)

На аналитическом уровне TER можно использовать для оценки эффективности команды. Поскольку метрика масштабируется, мы можем интерпретировать значения TER, близкие к 0, как среднюю эффективность, а значения TER, превышающие 1, можно интерпретировать как хорошую эффективность (аналогично отрицательным значениям TER и плохой эффективности). Его весовые коэффициенты для различных статистических данных о боксе могут помочь командам определить, какие именно аспекты их игры на корте нуждаются в наибольшем улучшении, чтобы повысить общую эффективность команды. Например, мы видим, что подборы и потери в нападении имеют больший вес в уравнении TER. Это может быть связано с тем, что подборы и потери в нападении обеспечивают более легкие возможности для взятия ворот и, таким образом, играют большую роль в расчете эффективности команды.

Для прогностической задачи, как и в случае с данными баскетбола в колледже, мы смогли показать, что TER также является сильным предиктором процента побед с данными NBA. Это свойство TER может помочь командам НБА прогнозировать процент побед при формировании составов в межсезонье. Например, команды могут попытаться приобрести игроков, которые, по их мнению, помогут максимизировать общий TER состава, чтобы повысить свои шансы на успех. Конечно, это также связано с тем же предостережением, которое мы часто видим в спортивной аналитике — хотя цифры могут помочь командам двигаться в правильном направлении, они никогда не должны быть единственным фактором, определяющим важные решения.

Прогнозирование будущего успеха

Еще одним предостерегающим моментом является тот факт, что любой будущий успех после текущего сезона становится очень трудно предсказать не только для TER, но и для большинства переменных. В качестве иллюстрации предположим, что мы хотим предсказать процент побед команды через два сезона. Другими словами, предположим, что у нас есть состав на сезон 2022–2023 годов, и мы хотим предсказать процент побед команды в сезоне 2023–2024 годов. Мы назовем эту переменную процентом побед в следующем сезоне.

Как видно из приведенной выше таблицы, большинство переменных не имеют сильной корреляции с процентом побед в следующем сезоне. Более того, переменные, которые имеют самую сильную корреляцию, такие как чистый рейтинг (eDiff), TER и даже (текущий) процент побед, не являются сильными предикторами будущего успеха:

В частности, мы видим, что самый сильный предиктор, чистый рейтинг, может объяснить только около 39% вариации процента побед в следующем сезоне.

Предсказать будущий успех невероятно сложно, потому что команды НБА имеют динамичные составы, которые часто меняются от сезона к сезону. Одним из недавних примеров может быть Бруклин Нетс в течение последних нескольких сезонов. Поскольку у нас нет возможности точно знать, как будет выглядеть состав команды через несколько сезонов, у нас также нет возможности предсказать процент побед через несколько сезонов.

Последние мысли

В целом, мне очень понравилось заниматься этим проектом и делиться результатами моего анализа, поэтому спасибо, что нашли время прочитать эту статью! Как всегда, весь код и данные, которые я использовал для этого проекта, будут на моем GitHub, и если у кого-то есть какие-либо предложения для меня по улучшению этого проекта, пожалуйста, не стесняйтесь поделиться со мной своими мыслями.