В Часть I я собрал 1326 наблюдений¹ 189 признаков с целью выяснить, что именно отличает игроков, чтобы можно было создать новую систему категоризации. В конце концов, традиционная пятипозиционная система немного устарела.

Я использовал анализ основных компонентов (PCA), чтобы сократить 189 функций до 81 нового измерения, состоящего из предыдущих функций. 81 новое измерение объясняет 99% общего разброса данных, что, мы надеемся, позволит нам создать разумную систему классификации игроков НБА.

Теперь нам предстоит принять два важных решения. Нам нужно выбрать алгоритм кластеризации для категоризации 195 игроков, и нам нужно определить, сколько кластеров нужно создать.

Первый ответ на первый вопрос, который приходит на ум, — кластеризация k-средних, который, возможно, является самым простым и самым популярным алгоритмом кластеризации. У него есть свои недостатки (например, он борется с некруглыми формами), но его очень легко реализовать. Давайте попробуем.

Не существует общепринятого наилучшего метода нахождения оптимального количества кластеров (k). Поэтому, вероятно, лучше всего попробовать несколько методов, чтобы убедиться, что результаты совпадают.

Двумя распространенными способами нахождения наилучшего количества кластеров в кластеризации k-средних являются метод локтя и метод силуэта. Я применил оба метода к нашим данным, чтобы построить следующие графики:

Используя метод локтя, оптимальное количество кластеров — это когда сумма квадратов внутри кластера (WCSS) явно начинает выравниваться (поэтому она образует локоть). Проблема в том, что здесь это не совсем выравнивается. В то же время оценка силуэта лучше всего, когда она близка к единице. В этом случае максимальная оценка силуэта достигается при k=2. К сожалению, я не думаю, что отнесение каждого игрока НБА к одной из двух категорий — это решение нашей проблемы.

Поэтому вместо этого я буду использовать основанный на моделях алгоритм, называемый кластеризацией смешанной модели Гаусса. Это метод обучения без учителя, который предполагает, что существует определенное количество распределений Гаусса, каждое из которых представляет собой кластер. Нам просто нужно выяснить оптимальное количество кластеров, что можно сделать с помощью байесовского информационного критерия.

Абсолютный минимум достигается при k = 8, что делает его лучшим числом кластеров для наших данных.

Теперь фактическая кластеризация чрезвычайно проста:

gmm = GaussianMixture(n_components=8).fit(principalComponents) labels = gmm.predict(principalComponents) 
testdf['cluster'] = labels

Точно так же мы поместили 1326 выступлений за один сезон за последние семь сезонов в одну из восьми категорий.

Мы можем визуализировать кластеры, используя наш первоначальный PCA (который уменьшил данные до двух измерений) из части I.

График ясно иллюстрирует тот факт, что кластеризация учитывает два основных компонента, которые объясняют 47,2% общей вариации, но на них также влияют другие 79 кластеров, которые объясняют оставшиеся 51,8% от общей 99% вариации, которая объясняется. нашими 81 основными компонентами. Обратите внимание на красные и фиолетовые точки и на то, как они разбросаны друг в друге довольно случайным образом. Это потому, что то, что отличает эти два кластера, явно не является частью двух основных компонентов, используемых в качестве осей для графика.

Мы также можем заметить, что в каждом кластере, вероятно, не одинаковое количество игроков, что достаточно легко подтвердить:

testdf.cluster.value_counts()

Числа слева представляют восемь различных кластеров, а числа справа показывают, сколько из 1326 выступлений игроков за один сезон попадают в каждый кластер.

Однако представление кластеров числом не очень полезно для нас. Итак, я просмотрел каждый кластер, чтобы попытаться выяснить, что именно отличает этих игроков. Вот восемь типов игроков в НБА:

1. Активные большие мужчины

Описание

Эти игроки, вероятно, не выводят мяч на площадку все время, как разыгрывающие, но они по-прежнему часто являются центральными фигурами своих атак. В эту категорию обычно попадают суперзвездные центры лиги.

Ключевые характеристики

Эти игроки лидируют во всех кластерах по подборам, каждой статистике суеты², набранным очкам и эффективности в краске, набранным очкам и эффективности в качестве броска в ситуациях пик-н-ролла, а также в обороне плюс/минус.

Эти игроки занимают последнее место среди всех групп по количеству трехочковых, выполненных с вершины ключа, и проценту трехочковых, которые не были выполнены без посторонней помощи.

Известные игроки

'19 Никола Йокич, '18 Энтони Дэвис, '18 Карл-Энтони Таунс

2. Универсальные нападающие

Описание

Игроки в этом кластере, как правило, универсальны в нападении, а также являются сильными подборами на позиции форварда. Однако они не совсем игроки-суперзвезды — они обладают разносторонними способностями, но обычно не являются особенно выдающимися бомбардирами или плеймейкерами, несмотря на относительно частое ведение мяча.

Ключевые характеристики

Эти игроки могут похвастаться вторыми по количеству оспариваемых бросков, возвращенных потерянных мячей и боксерских аутов. Их средний рейтинг защиты также является вторым среди всех кластеров. Кроме того, этот кластер в среднем занимает второе место по пройденному расстоянию в нападении и защите. Среди кластеров, которые в основном не заполнены защитниками, игроки в этом кластере в среднем делают больше всего дриблинга за касание.

Они не известны своей способностью бросать мяч сразу после паса, поскольку процент бросков с игры в этом кластере является вторым по величине среди всех восьми кластеров.

Известные игроки

15 Джимми Батлер, 15 Кавай Леонард, 16 Яннис Адетокумбо

3. Потянитесь вперед / Большие мужчины

Описание

Среди форвардов и бигменов есть игроки, которые могут не вести мяч так часто, как универсальные форварды, но они все же могут забивать благодаря своим универсальным броскам. В результате они могут растягивать пол больше, чем другие игроки их роста, хотя многие из них все еще более чем способны забивать в краске.

Ключевые характеристики

В среднем игроки этого кластера набирают 25,3% очков за прыжки со средней дистанции, что намного больше, чем в любом другом кластере. Кроме того, их 41,5% FG% «поймай-и-выстрели» является максимальным для любого кластера, вероятно, из-за их навыков, а также того факта, что многие из этих бросков происходят из-за дуги.

Вытягиваться вперед / бигмены проходят наименьшее расстояние как в нападении, так и в защите. В среднем 6,4% их очков приходятся на возможности быстрого прорыва, что является самым низким показателем среди всех кластеров.

Известные игроки

’14 Кевин Лав, ’15 Энтони Дэвис, ’14 Дирк Новицки

4. Бомбардиры с доминирующим мячом

Описание

Эти защитники и нападающие создают себе броски гораздо чаще, чем другие игроки. Они известны своей способностью забивать с дриблинга. В этом кластере представлены лучшие бомбардиры лиги и многие из лучших плеймейкеров, которые набирают больше очков, чем игроки в общем кластере площадки.

Ключевые характеристики

В частности, бомбардиры с доминирующим мячом набирают в среднем 23,96 очка за 36 минут. Ни один другой кластер не достигает отметки 20. Кроме того, 13,4% их очков приходятся на изолированные игры, что является самым высоким показателем для любого кластера. Они едут к корзине больше, чем любой другой кластер, и они набирают больше очков без посторонней помощи, чем любой другой кластер.

Интересно, что игроки в этом кластере также в среднем занимают второе место по проценту результативных попаданий с игры и истинному проценту попаданий. Возможно, это связано с тем, что они делают больше бросков с ведения мяча, что, как правило, более сложно. В то время как некоторым игрокам (например, известным игрокам, перечисленным ниже) это сойдет с рук, другие игроки, такие как Коби Брайант 15 года, становятся гораздо менее эффективными.

Известные игроки

’14 Кевин Дюрант, ’16 Стефен Карри, ’19 Джеймс Харден

5. Генералы этажей

Описание

Почти все игроки в этом кластере — охранники. Их игра обычно сосредоточена на их игре, а не на их результативности.

Ключевые характеристики

Как и следовало ожидать, у генералов этажей в среднем больше пасов, чем у любого другого кластера. Несмотря на то, что они не получают столько передач, как бомбардиры с преобладанием мяча, они более эффективны в распасовке и могут похвастаться гораздо лучшим средним коэффициентом передачи передач. Из-за своих важных обязанностей вести нападение они касаются мяча больше, чем любая другая группа. Кроме того, они дольше владеют мячом при каждом касании и больше всего ведут мяч за касание.

Как правило, это игроки, которые пасуют первыми — они пасуют из драйвов чаще, чем любой другой игрок. Тем не менее, когда они забивают, то обычно это происходит вне драйвов и розыгрышей, в которых они играют с мячом. Процент их баллов, полученных в этих ситуациях, больше, чем в любом другом кластере.

Известные игроки

'14 Горан Драгич, '14 Майк Конли, '15 Кайл Лоури

6. Традиционные центры

Описание

Традиционные центровые, как правило, являются сильными подборщиками и защитниками под кольцом, но они редко делают что-то большее. Если они когда-нибудь и бьют по мячу, то, скорее всего, это будут удары из-под кольца.

Ключевые характеристики

Этот кластер лидирует среди всех кластеров по подборам в нападении. Они блокируют больше ударов, чем любой другой кластер. Процент их очков, полученных за краску, является самым высоким среди всех кластеров, как и процент их двухочковых, которым помогают. Они также проводят наибольшую часть своего времени на полу, не владея мячом. В среднем традиционные центровые также выше, чем игроки из других кластеров.

Кроме того, этот кластер занимает последнее место по колоссальным 74 из 189 характеристик данных. Это много. Я не могу перечислить их все, но вот некоторые из них: передачи, перехваты, трехочковые и попытки, отклонения, сыгранные атаки, возврат потерянных мячей, передачи, процент штрафных бросков, время владения мячом и среднее ведение за касание.

Известные игроки

’14 Хоаким Ноа, ’17 Руди Гобер, ’15 ДеАндре Джордан

7. Снайперы

Описание

Эти игроки редко инициируют игру. Вместо этого они известны своей способностью запускать прыжки в глубину прямо с передачи. Этот кластер в основном состоит из защитников, но также включает в себя несколько нападающих.

Ключевые характеристики

Игроки в этом кластере в среднем набирают наибольшее количество очков в ситуациях типа «брось-брось». Они лидируют во всех кластерах по эффективности с обоих углов. Снайперы также берут (и делают) больше троек, чем любой другой кластер.

В среднем снайперы занимают последние места среди всех кластеров по всем показателям подборов. Они записывают меньше экранных подсказок и проходят реже, чем любой другой кластер. Игроки в этом кластере также являются последними в блоках и набирают в краске меньше, чем в любом другом кластере.

Известные игроки

Клэй Томпсон, 14, Уэсли Мэтьюз, 19, Бадди Хилд

8. Малоиспользуемые ролевые игроки

Описание

Эти игроки обычно не держат мяч в руках. Если они это сделают, от них редко ожидают, что они будут что-то делать с этим, если только они не подстраховывают трехочковый. Даже в этом случае их способность стрелять в прыжке не так сильна, как у игроков группы снайперов. Тем не менее, эти игроки, как правило, лучше защищаются, чем стреляют.

Ключевые характеристики

В среднем эти игроки набирают 48,3% очков с трехочковых, 15,7% — с быстрых прорывов и 17,4% — с передач. Все эти показатели являются самыми высокими для любого кластера. Игроки в этом кластере также пытаются больше трехочковых с любого угла, чем в других кластерах, и они преодолевают наибольшее расстояние в защите и в целом. Что касается защиты, то этот кластер может похвастаться вторым по величине защитным полем плюс/минус среди всех кластеров, несмотря на то, что он не лидирует ни по перехватам, ни по блокам.

Эти игроки набирают меньше всего очков, меньше всего бросают по мячу, имеют самый низкий процент использования, совершают наименьшее количество фолов и т. д.

Известные игроки

'17 Дрэймонд Грин, '14 Николас Батум, '15 Дэнни Грин

Отлично, мы сформировали восемь групп: активные бигмены, универсальные нападающие, растянутые нападающие/бигмены, бомбардиры с доминирующим мячом, генералы площадки, традиционные центровые, снайперы и малоиспользуемые ролевые игроки. Давайте визуализируем распределение «старых позиций» внутри каждого кластера, используя горизонтальную гистограмму с накоплением.

pdf = testdf.groupby(['cluster']).sum()[['C','F','G']] 
ind = np.arange(len(np.unique(labels))) 
width = 0.4 
p1 = plt.barh(ind,pdf['G'], width, color='r',label='G',edgecolor='black') 
p2 = plt.barh(ind,pdf['F'], width, color='g',left=pdf['G'],label='F',edgecolor='black') 
p3 = plt.barh(ind,pdf['C'], width, color='b',left=np.array(pdf['G'])+np.array(pdf['F']),label='C',edgecolor='black') 
plt.xlim(0,250) 
plt.xlabel('players') 
plt.title('distribution of positions in clusters') 
plt.gca().invert_yaxis() 
plt.gca().set_yticks(np.arange(8)) plt.gca().set_yticklabels(['high-usage big men','versatile forwards','stretch forwards / big men','ball-dominant scorers','floor generals','traditional centers','sharpshooters','low-usage role players']) 
plt.legend(loc='best') 
plt.show()

Три кластера «больших мужчин» (бигмены с высокой интенсивностью использования, растянутые форварды/бигмены и традиционные центровые) являются тремя самыми маленькими кластерами. Это неудивительно, учитывая, что количество центровых в лиге меньше, чем количество защитников и нападающих. Кроме того, группа нападающих/бигменов названа так из-за относительно равномерного распределения, ну, форвардов и бигменов.

Только три центровых попали в группу малоиспользуемых ролевых игроков: Ченнинг Фрай 14 года, Брук Лопес 19 года и Марк Газоль 20 года. При этом 94,9% генералов этажей — гвардейцы. Три из двенадцати нечетных — это выступления Эвана Тернера за один сезон с 2014 по 2017 год.

Прежде чем я закончу эту статью, давайте воспользуемся этими данными для создания команды All-NBA из 8 человек, найдя лучших игроков этого сезона из каждого кластера. Я буду использовать VORP (ценность выше замены игрока), чтобы определить, какой игрок является лучшим. Это определенно ошибочная метрика, как и любая универсальная метрика, но это всего лишь быстрое упражнение для развлечения.

Из 20 лучших игроков, лидирующих в лиге в VORP в этом сезоне, 13 являются бомбардирами с преобладанием мяча, а остальные 7 - активными бигмэнами. Так что, разумеется, это далеко не все лучшие игроки НБА. Джастин Холидей не лучше Леброна Джеймса.

В любом случае, в основном все эти обозначения кластеров имеют смысл. Здесь все нормально — все хорошо!

Ну, кроме того факта, что ни один из 196 подходящих игроков регулярного сезона 2019–20 не квалифицировался как традиционный центровой. Или в прошлом сезоне. Или годом раньше. Да, это немного странно. Я думаю, это следствие кластеризации с размером выборки за семь сезонов — бигмэны 2014 года сильно отличаются от 2020-го. Я полагаю, что настоящие традиционные центровые не получают достаточного количества минут для квалификации, а у других есть только что превратились в крупных мужчин с высоким уровнем использования. Это странно и, возможно, указывает на недостаток в этом процессе.

Во всяком случае, я думаю, что это хорошая точка остановки для этой статьи. Я планирую использовать данные из этой короткой серии для новых задач в ближайшем будущем. Опять же, вы можете увидеть часть I здесь и большую часть кода из этой части здесь.

  1. Каждое наблюдение представляет собой подходящий сезон отдельного игрока, начиная с регулярного сезона 2013–2014 годов, в среднем 189 наблюдений за сезон за последние семь сезонов.
  2. Статистика суеты включает в себя спорные броски, отклонения, нарисованные атаки, помощь на экране и количество потерянных мячей.

Первоначально опубликовано на https://www.thespax.com 31 мая 2020 г.

Примечание от In Plain English

А вы знали, что у нас четыре публикации и канал на YouTube? Вы можете найти все это на нашей домашней странице plainenglish.io — проявите свою любовь, подписавшись на наши публикации и подписавшись на наш канал YouTube!