NBA Deep Dive (Глубокое погружение в НБА)

Стефу Карри платят слишком много, а Джеймсу Хардену хорошо платят

У НБА есть множество статистических данных, в которые могут погрузиться руководители статистики и любители машинного обучения. Существует множество веб-сайтов с широким спектром данных НБА, таких как nba.com и Basketball-reference.com.

Изучение этих данных также является отличным способом освежить свои навыки работы с Таблицей и SQL. Что я и сделал. Графики ниже все построены в Tableau и в таблицах с SQL (SQLite в Python).

Без лишних слов, давайте исследуем данные и построим модель!

Изучение данных

Многие из исследуемых переменных (статистика команды и игрока) можно найти в этом глоссарии или в этом глоссарии. Это репо содержит данные, таблицы, SQL-запросы и модели.

Вы пришли из чрезмерно наступательного или оборонительного состояния?

Прежде чем мы ответим на вышеупомянутый вопрос, давайте посмотрим на текущее количество игроков НБА (все еще в лиге по состоянию на сезон 19–20), родившихся в каждом штате.

Никаких сюрпризов, Калифорния занимает первое место с 44 игроками. И во многих штатах Среднего Запада есть один или два выхода.

Что-то более интересное могло бы быть средним VORP для каждого состояния. VORP означает ценность перед заменяющим игроком, что в основном означает, насколько лучше иметь отдельного игрока в команде по сравнению с обычным заменяющим игроком. Это может быть хорошим показателем успеха игрока.

В Калифорнии самый высокий средний показатель VORP с такими известными игроками, как Харден, Уэстбрук, Лиллард, Леонард, PG и т. Д. Флорида в настоящее время самый низкий. Если бы это было в начале 2000-х, FL был бы выше во главе с Винсом Картером.

Затем давайте посмотрим, в каких штатах игроки становятся более агрессивными или оборонительными. Ниже представлена средняя разница между Процентом побед в атаке (OWS) и долей побед в защите (DWS), которые являются хорошими показателями вкладов игроков в нападение и защиту соответственно. Более красный цвет означает большее внимание к OWS, а более голубой цвет означает большее внимание к DWS.

Игроки НБА из Калифорнии больше сосредотачиваются на нападении, что имеет смысл, учитывая некоторые из названий, перечисленных выше, и потому, что VORP имеет тенденцию поощрять нападение. Нью-Йорк является наиболее оборонительным с такими игроками, как Андре Драммонд и Дэнни Грин.

Взносы колледжа в НБА

Давайте посмотрим на количество действующих игроков НБА из каждого колледжа.

У Кентукки и Дьюка больше всех, за ними Северная Каролина занимает третье место.

В то время как у Duke, например, много игроков в НБА, средний показатель VORP для этих игроков не так хорош. (Мне пришлось указать на это, потому что я квасцы из Северной Каролины)

Кемба Уокер и Андре Драммонд участвуют в большей части VORP от Conneticut. И хотя в Кентукки есть лучшие игроки, такие как AD, Бам Адебайо и Карл-Энтони Таунс, в нем также есть много игроков ниже среднего, что снижает средний показатель.

Сравнивать защитные и атакующие способности игроков всегда весело, давайте сделаем это для нынешних игроков НБА из колледжей.

У Вейк Форест самая большая разница, а это означает, что игроки НБА из этого колледжа, как правило, больше способствуют нападению, чем защите. Крис Пол внес здесь наибольший вклад. Дреймонд Грин больше всего способствует повышению штата Мичиган на DWS. Дреймонд Грин - игрок, которого сложно анализировать, но он, бесспорно, один из величайших игроков в защите.

Харден против…?

Джеймс Харден считается одним из лучших игроков НБА всех времен. Тем не менее, ему также не хватает некоторого оборонительного мастерства. Есть еще один игрок НБА, который в прошлом сезоне больше старался не блокировать мяч, чем Харден.

У Дамиана Лилларда колоссальные 8.1 баллов за его разницу в OWS и DWS. В то время как Харден получает 5,6. Спад продолжается с ДеМаром ДеРозаном, а затем сглаживается. Цифры не врут. У Лилларда DWS намного ниже, чем у Harden, и лишь немного лучше OWS.

Преимущество домашнего суда; Насколько это важно?

А теперь взглянем на интересную статистику; Существует ли преимущество домашней площадки. Давайте посмотрим на соотношение побед посетителей и хозяев для пяти лучших и пяти худших команд в прошлом сезоне.

2 из 5 лучших команд И 2 из 5 худших команд действительно добились большего успеха на выезде, чем дома. В целом, команды 10/30 на самом деле лучше выступают на выезде. Таким образом, большинство команд выигрывают дома, но не с большим отрывом. Преимущество домашней площадки существует, но не так важно, как некоторые думают.

Кому платят слишком много? И слишком мало?

Во-первых, посмотрите, на каких должностях средняя зарплата лучше. Вы можете угадать Power Forward с такими великими игроками, как Яннис, Леброн Джеймс и А.Д. Или, может быть, разыгрывающий со Стефом Карри, Уэстбруком и Лиллардом. Но это на самом деле… Центры!

В сезоне 17–18 гг. «Центры» в среднем получали почти 8 миллионов долларов. В то время как разыгрывающие в среднем получали 5,5 млн долларов. Что дает?

На центральных позициях играет меньше низкооплачиваемых игроков, чем на всех остальных позициях, особенно разыгрывающего.
«Средним» центрам платят больше, чем средним игрокам на всех остальных позициях.

Затем я измерил корреляцию Пирсона между расширенной статистикой игрока и зарплатой и обнаружил, что доля выигрышей (WS), а затем VORP сильнее коррелируют с зарплатой игрока.

Была обнаружена еще одна важная вещь… и это тревожило. В течение сезона 17–18 Стеф Карри (красный кружок) получал не только больше, но и намного больше, чем средний показатель как для его WS, так и для VORP. Линии тренда ниже показывают, насколько он далек от прогноза.

Джеймсу Хардену (фиолетовый кружок) заплатили в самый раз. А Карлу-Энтони Таунсу (синий кружок) преступно недоплачивали за его вклад в его команду (к сожалению, это были Тимбервулвз). У него были более высокие WS и VORP, чем у Карри, но платили гораздо меньше.

Это просто показывает, насколько больше команд ценят атакующих, а не защитников.

Модель

Теперь давайте посмотрим, можно ли построить модель, чтобы предсказать, какая команда выиграет в матче. Я собрал все игры регулярного сезона за последние 5 сезонов. Эта модель не будет RAPTOR, но это только начало.

Во-первых, давайте построим простую базовую модель, которая предсказывает, что победителем станет команда, которая на данный момент одержит больше побед в данном сезоне. Другими словами, эта модель никогда не предсказывает «огорчений». С помощью этого простого показателя победителя можно найти в 70% случаев.

Теперь о модели. Каждая строка содержит

Количество предыдущих побед и поражений каждой команды в сезоне до этой игры.
Как далеко (по расстоянию и высоте) группа гостей должна была пройти
Если в этой игре был заменен участник, участвующий в стартовом составе (последовавший за последними 5 играми).
Расширенная командная статистика для каждой команды, например Pace.
Расширенная статистика игроков для каждого из стартовавших в каждой команде, например VORP , WS и BPM.

Данные немного обманчивы, поскольку расширенная статистика для команд и игроков на самом деле является общей статистикой с конца этого сезона. К сожалению, это все, что я смог легко найти, однако альтернативой может быть фактическое вычисление общей статистики каждой текущей игры с помощью nba.com.

Я использовал XGBoost и выполнил поиск по сетке по нескольким гиперпараметрам. Наилучшая производительность, которую я смог получить, составила около 70% при пятикратной перекрестной проверке. Это так же хорошо, как и базовый уровень. Это означает, что даже со всеми этими расширенными характеристиками невозможно создать лучшую модель. Для этого есть две возможные причины. Либо в этих данных отсутствуют некоторые более тонкие переменные, которые могли бы лучше предсказать победителя, либо дисперсия слишком высока. Давайте узнаем больше:

Ниже показаны наиболее важные характеристики, рассчитанные по усилению.

Лучшая характеристика - это чистый рейтинг команды. Он определяется как насколько лучше или хуже команда, когда на площадке находится конкретный игрок с помощью сводного анализа. Другая расширенная статистика важна как для начинающих, так и для всей команды. Примечательно, что особые переменные, такие как расстояние, на которое пришла команда посетителя, и наличие у команды стартовой смены, вообще не использовались моделью, поскольку они имели нулевой прирост.

Насколько схожи прогнозы между моделью и базовым показателем без проблем?

В чем-то похоже; Модель и базовый уровень совпадают в 82% их прогнозов. Таким образом, в большинстве случаев модель также предсказывала отсутствие огорчений, но в 18% случаев она предсказывала расстройства. Однако он все равно не стал лучше. Кроме того, модель была наименее уверенной, когда она предсказывала расстройство, независимо от того, было ли оно правильным. Попробуйте обучить модель только на расстройствах и объединить ее с этой базовой линией, чтобы получить лучшие результаты.

Что, если мы удалим прогнозы с низкой достоверностью?

Если мы попытаемся удалить прогнозы с запасом достоверности ниже 0,1, точность изменится с 70% до 72%. Таким образом, модель вполне уверена в своих неверных прогнозах.

Это просто пример того, что можно сделать с этими данными. Учитывая все данные, которые может предложить НБА, есть еще много чего! И еще много других моделей, которые нужно сделать. Посмотрите репо и попробуйте сами.