БАСКЕТБОЛЬНАЯ АНАЛИТИКА / МАШИНОСТРОЕНИЕ

Переосмысление классификации игроков НБА с помощью кластеризации

Использование иерархической кластеризации для определения игроков НБА

Баскетбол существует более ста лет, и по мере того, как игра развивалась с новыми правилами и положениями, развивались и игроки. В НБА наступило время, когда разыгрывающие берут 10 с лишним подборов, а центровые эффективно бьют с линии 3-х очков, где игроки ростом 7 футов умеют быть основными игроками с мячом, а игроки ниже 6 футов 6 получают минуты в качестве центровых. Игроки начали расширять свои навыки, чтобы утверждать свое превосходство на всей площадке. Этих игроков больше нельзя определить по позиции, на которой они играют. Тем не менее, в эту беспозиционную эру баскетбола команды по-прежнему ограничивают себя ограничением игроков традиционными позициями, ограничивая их ролями, предназначенными для игроков прошлого. . Эта статья призвана предоставить новый способ определения игроков в определенные скобки с использованием методов неконтролируемого обучения.

Данные

Все используемые данные получены с NBA.com и состоят из различной записанной внутриигровой статистики игроков за сезон НБА 2018–2019. Всего было собрано 530 точек данных с 336 функциями, которые включают данные игрока, общую статистику, расширенную статистику, статистику защиты, статистику суеты, статистику стиля игры и статистику пасов. Игроки, которые играли менее 12 минут за игру и менее 10 игр, были исключены, в результате чего количество точек данных уменьшилось до 388.

Уменьшение размера

Проклятие размерности может быть пугающим. Это не только усложняет интерпретацию модели, но также может привести к переобучению. Разумно предположить, что не все функции предоставляют ценную информацию о данных, в то время как некоторые предоставляют аналогичную информацию, предоставляемую другой функцией. Набор данных здесь содержит 336 функций, конечно, не все имеют отношение к этому проекту.

Выбор функций / уменьшение размеров - важный шаг в любом конвейере Data Science. Здесь Корреляция Пирсона и Коэффициент инфляции дисперсии были использованы для уменьшения количества признаков с 336 до 87.

Анализ главных компонентов

Анализ главных компонентов - еще один популярный метод уменьшения размеров, который позволяет сохранить всю информацию, не выбрасывая никаких функций. Выбор функций уже сократил 336 функций до 87, и отказ от дополнительных функций может нанести ущерб модели. Использование PCA обеспечивает идеальный баланс между сохранением всей информации и упрощением модели. Здесь PCA проводился с использованием библиотеки Sci-Kit Learn. В следующей таблице показано отклонение, объясненное каждым основным компонентом.

PC1, PC2 и PC3 вместе объясняют почти половину общей вариации, создаваемой данными. Наличие около 60% дисперсии, объясняемой данными, является хорошей точкой отсечения и идеальным балансом между сложностью модели и интерпретируемостью. Первые 6 основных компонентов успешно объясняют около 61% дисперсии, создаваемой данными. Последующие компоненты оказывают незначительное влияние, поскольку отклонения, объясняемые этими характеристиками, меньше.

Интерпретация основных компонентов

Основные компоненты интерпретируются с использованием их собственных значений. Признак, имеющий высокое положительное собственное значение, означает, что компонент имеет сильную положительную связь с этим признаком. Признак, имеющий высокое отрицательное собственное значение, означает, что компонент имеет сильную отрицательную связь с компонентом.

PC1

PC1 объясняет 25% дисперсии, создаваемой данными, и, следовательно, будет очень важен для кластеризации игроков. В следующей таблице показаны 20 основных функций с наивысшими абсолютными собственными значениями.

PC1, похоже, награждает игроков, которые:

  • набрать много отскоков,
  • создавать экраны и роллы по направлению к корзине во время Pick & Roll,
  • иметь высокий защитный удар в 6 футах от корзины,
  • Конкурсные попытки 2 очка,
  • Пройдите к корзине,
  • сделать много блоков,
  • и имеют высокий процент попаданий с игры.

PC1, кажется, наказывает игроков, которые:

  • имеют высокую частоту защиты возле 3-х балльной линии
  • и управлять мячом во время Pick & Roll.

Высокие значения PC1 указывают на то, что игрок преимущественно играет близко к корзине. Можно с уверенностью предположить, что центры будут иметь высокие значения PC1.

PC2

PC2 дает хороший процент дисперсии. В следующей таблице показаны 20 основных функций с наивысшими абсолютными собственными значениями:

PC2 имеет положительную связь почти со всеми формами правонарушений. В частности, высоко оценивает игроков, которые:

  • набрать много очков,
  • имеют высокую эффективность воздействия на игрока,
  • иметь высокий уровень использования,
  • и много забивай в играх с изоляцией.

Высокие значения PC2 указывают на то, что игрок элитный и очень эффективный. Можно было предположить, что All-Stars будет иметь высокие значения PC2. PC2 ценит как наступательное, так и защитное воздействие

PC3

Начиная с PC3, основные компоненты не очень хорошо объясняют дисперсию, создаваемую набором данных, и, следовательно, не оказывают большого влияния на разделение игроков по сравнению с PC1 и PC2. В следующей таблице показаны 20 основных функций с наивысшими абсолютными собственными значениями:

PC3, похоже, награждает игроков, которые:

  1. сделать много снимков Spot Up,
  2. делать много снимков вне экрана,
  3. делать выстрелы на расстоянии более 20 футов от корзины,
  4. Конкурсные попытки 3 очка,
  5. и иметь высокий процент в 3 балла

PC3 наказывает игроков, которые:

  1. сделать много голевых передач,
  2. сделать много оборотов,
  3. и управлять мячом во время Pick & Roll

Высокие значения PC3 указывают на то, что игрок много стреляет с расстояния более 20 футов от корзины и является эффективным 3-х очковым стрелком.

PC4

В следующей таблице показаны 20 основных функций с наивысшими абсолютными собственными значениями:

PC4, похоже, награждает игроков, которые:

  1. Публикуйте много сообщений,
  2. иметь высокий уровень использования,
  3. забить за 5 футов от корзины,
  4. Катитесь к корзине во время Pick & Roll,
  5. и иметь высокий процент в 3 балла

PC4, кажется, наказывает игроков, которые:

  1. забить через Transition,
  2. Пройдите к корзине,
  3. имеют высокий процент попаданий с игры и точной стрельбы,
  4. делать отклонения
  5. делать откаты
  6. и иметь высокий +/-

Высокие значения PC4 указывают на игроков, которые могут встать и вытянуться на расстояние более 5 футов от корзины. Игроки с высоким РС4 могут забивать из любого места, будь то рядом с корзиной, на средней дистанции или с линии 3-х очков.

PC5

В следующей таблице показаны 20 основных функций с наивысшими абсолютными собственными значениями:

PC5 награждает игроков, которые:

  1. оценка из Handoffs и Off Screens,
  2. имеют высокую частоту защиты за пределами 6 футов от корзины,
  3. и имеют высокий процент попаданий с игры и точной стрельбы

PC5, кажется, наказывает игроков, которые:

  1. делать отклонения и кражи
  2. состязание 3-х очковых бросков,
  3. иметь защитный удар возле 3-х очковой линии,
  4. делать снимки Spot Up,
  5. Восстановить потерянные шары,
  6. и забивать через переходы

Высокие значения PC5 указывают на то, что игрок преимущественно играет вдали от корзины, имеет высокие интервалы бросков и низкое защитное воздействие. Игроки с высоким PC5 являются преобладающими стрелками и не имеют положительного влияния на другие аспекты игры.

PC6

В следующей таблице показаны 20 основных функций с наивысшими абсолютными собственными значениями:

PC6, похоже, награждает игроков, которые:

  1. иметь высокий защитный урон на расстоянии более 6 футов от корзины,
  2. рисовать сборы
  3. и сделать много проходов

PC6 наказывает игроков с сильным атакующим ударом. Высокое значение PC6 означает, что игроки имеют мощное защитное влияние по всему периметру.

Иерархическая кластеризация

Цель здесь - переопределить классификацию игроков. Классификация игроков по их позиции - устаревшая система, которой не должно быть места в современной игре. Но, если не позиции, что следует использовать для классификации игроков, играющих подобным образом? Кластеризация - это популярный метод, используемый для группировки похожих данных, когда их метки неизвестны. Здесь Иерархическая кластеризация используется для группировки игроков на основе имеющихся данных.

Тест Хопкинса

Перед кластеризацией данных был проведен тест Хопкинса для проверки пространственной случайности данных. Это делается для того, чтобы убедиться, что наши данные действительно демонстрируют тенденции кластеризации. (Случайно сгенерированные точки данных не имеют тенденций к кластеризации).

H0: точки данных генерируются неслучайным равномерным распределением

H1: точки данных генерируются случайным образом

При проведении теста Хопкинса было получено значение p, равное 0,3. Следовательно, есть некоторые свидетельства, позволяющие отвергнуть нулевую гипотезу, и, следовательно, есть свидетельства, позволяющие заключить, что точки данных имеют тенденцию к кластеризации.

Связь

После экспериментов с различными методами связывания выяснилось, что Ward linkage лучше всего справляется с кластеризацией имеющихся данных. Ниже представлена ​​дендрограмма, которая визуализирует методологию кластеризации.

Интуитивное мышление и эвристические методы использовались для определения подходящего количества кластеров, необходимых для группировки данных. Ниже представлен график локтя.

На графике «Локоть» видно, что 2, 6 и 9 кластеров отлично справляются с созданием хороших кластеров. Наличие всего 2 или 6 кластеров лучше, чем тщательная попытка сгруппировать наши данные. Таким образом, данные разделены на 9 кластеров.

Интерпретация кластеров

Группа 1 - современные элиты больших мужчин

Кластер 1 имеет высокие значения PC1, PC2 и PC4 и отрицательные значения PC5. Это означает, что игроки кластера 1 играют в основном в пределах 6 футов от корзины, эффективны и много забивают, могут растягивать пол и стрелять на расстояние более 6 футов от корзины. Известные игроки в этом кластере:

Группа 2 - Традиционные большие мужчины

Кластер 2 имеет самое высокое среднее значение PC1 и самое низкое значение PC4. Игроки в группе играют в пределах 6 футов от корзины и обладают сильным защитным воздействием. Однако они не могут растянуть пол и стрелять дальше 6 футов от корзины. Известные игроки в этом кластере:

Группа 3 - элитные трехочковые стрелки

Кластер 3 имеет наивысшее среднее значение PC5, высокое значение PC3 и самое низкое среднее значение PC1. Игроки в Кластере 3 играют по периметру и являются высокоэффективными стрелками. Они редко подходят к корзине и отбирают подборы. Известные игроки в этом кластере:

Группа 4 - ролевые игроки

Кластер 4 имеет довольно низкие значения среди всех основных компонентов. Игроки в этом кластере не являются элитой в какой-либо конкретной категории. У них положительное среднее значение только с PC3, что может указывать на то, что они играют около периметра и являются приличными стрелками. У них самое низкое среднее значение PC2, что указывает на то, что они набирают меньше баллов и не очень эффективны. Известные игроки в этом кластере:

Кластер 5 –3 и D плееры

Кластер 5 имеет высокие средние значения PC3 и PC6 и самое низкое среднее значение PC5. Игроки в этой группе - это высокоэффективные стрелки, которые обладают очень высокой защитой возле периметра. Известные игроки в этом кластере:

Кластер 6 - счетчики 3 уровня

Кластер 6 имеет наивысшее среднее значение PC3. За исключением PC2 и PC3, средние значения главного компонента в этом кластере отрицательны. Игроки в этой группе являются стрелками и имеют некоторое влияние на подсчет очков. Они не обязательно забивают только из-за линии 3-х очков. Известные игроки в этом кластере:

Группа 7 - Хорошие хендлеры

Кластер 7 имеет самое низкое среднее значение PC3 и очень низкое среднее значение PC2. Он имеет высокое среднее значение PC4. Игроки в этом кластере очень неэффективны и играют в пределах 3-х очковой линии, но далеко от корзины и часто используются. Это может указывать на то, что у них много мячей в руках, но на самом деле они мало забивают. Известные игроки в этом кластере:

Группа 8 - Elite All Stars

Кластер 8 имеет наивысшее значение PC2 и наименьшее значение PC6. Игроки в кластере 8 набирают огромное количество очков и демонстрируют высочайшую эффективность. Они несут ответственность за то, чтобы набрать большинство очков в игре. Известные игроки в этом кластере:

Группа 9 - двусторонние игроки периметра

Кластер 9 имеет высокое среднее значение PC6 и довольно высокое среднее значение PC2. Эти игроки очень эффективны как в атаке, так и в защите. Они набирают много очков и укрепляют оборону по периметру. Известные игроки в этом кластере:

Проверка действительности кластера

Кластер 1

Кластер 1 имеет следующие особенности:

  • Второе место по количеству очков за игру
  • Наивысший средний общий объем подборов за игру
  • Наивысшее среднее количество блоков за игру
  • Второй по величине средний процент голов с игры
  • Второе место по количеству забитых мячей в игре за игру
  • Наибольшее количество голов с игры в защите после игры
  • Большинство нарушений Кластера 1 совершается из Pick & Rolls, Post Ups и Spot Up Shots.

Все эти черты характерны для элитных больших мужчин.

Кластер 2

Кластер 2 имеет следующие особенности:

  • Второе место по количеству подборов за игру
  • Вторые по высоте блоки / игра
  • Самый высокий процент забитых мячей
  • Наименьшие 3 балла в процентах
  • Сделано полевых голов High Post / игра
  • Второе по величине количество заброшенных мячей за игру
  • Большинство нарушений Кластера 2 исходят от Pick & Rolls and Cuts

Все эти черты характерны для традиционных больших мужчин.

Кластер 3

Кластер 3 имеет следующие особенности:

  • Наивысшие 3 балла в процентах
  • Второе по величине количество заброшенных мячей по периметру за игру
  • Большинство нарушений Кластера 3 происходит из-за передач, снимков за кадром, манипуляций с перехватом и выстрелами на место.

Все эти черты характерны для элитных трехочковых стрелков.

Кластер 4

Кластер 4 имеет следующие особенности:

  • Наименьшее количество очков за игру
  • Второе место по количеству голов с игры за игру
  • Большинство нападений кластера 4 исходит из ударов с места.

Все эти качества очень распространены среди ролевых игроков.

Кластер 5

Кластер 5 имеет следующие особенности:

  • Высокий процент в 3 балла
  • Высокие кражи / игра
  • Полевые голы с высоким периметром / игра
  • Полевые ворота с высокой стойкой и защитой по периметру / игра
  • Большинство атак Кластера 5 совершаются выстрелами с места.

Все эти черты характерны для 3-х и D-игроков (3-х очковых и защищающихся).

Кластер 6

Кластер 6 имеет следующие особенности:

  • High Points / игра
  • High Rebounds / игра
  • Высокое поле и 3 очка в процентах
  • Сравнительно высокие забитые мячом в стойке и по периметру за игру
  • Снимки с высокой точки, публикации, выбор и откат, за кадром, изоляция, передача обслуживания, сокращение и переход Полевая цель по сравнению с другими кластерами

Все эти черты характерны для бомбардиров 3-го уровня.

Кластер 7

Кластер 7 имеет следующие особенности:

  • Очень низкие очки за игру
  • Сравнительно высокие передачи / игра
  • Процент наименьшего количества бросков с игры
  • Наименьшее количество голов с игры за игру
  • Наименьшее количество защищенных полевых голов за игру
  • Большинство нарушений Кластера 7 происходит из-за того, что они выполняют удары Pick & Rolls и Spot-up.

Все эти качества очень распространены среди порядочных игроков в мяч.

Кластер 8

Кластер 8 имеет следующие особенности:

  • Наивысшие баллы за игру
  • Наибольшее количество передач за игру
  • High Rebounds / игра
  • Процент голов с высокой полевой голов
  • Максимальное количество перехватов за игру
  • Наибольшее количество голов с игры за игру
  • Полевые голы с высокой степенью защиты / игра
  • Большинство нарушений Кластера 8 связано с изоляцией и обращением с пик-энд-роллами.

Все эти черты характерны для элитных звезд.

Кластер 9

Кластер 9 имеет следующие особенности:

  • High Points / игра
  • Второе место по результативности передач за игру
  • Высокий процент 3 балла
  • Второе место по количеству перехватов за игру
  • Полевые голы с наибольшим защищенным периметром / игра
  • Большинство нарушений Кластера 9 совершается из-за разборки пик-н-роллов.

Все эти черты очень распространены среди двухсторонних игроков периметра.

Комментарий

Благодаря иерархической кластеризации было создано 9 кластеров, которые описывают игроков в новом свете. В каждом кластере есть смесь игроков с традиционных позиций. С такой классификацией командам больше не нужно ограничиваться выбором игроков на основе их позиций, но они могут расширить свои возможности, выбирая игроков, которые дополняют друг друга. Команды также могут экспериментировать, играя определенных игроков на разных позициях в зависимости от того, в какой кластер они попадают.

Возможные улучшения

Относить игроков только к одной категории немного неразумно. Наличие вторичного кластера для каждого игрока может быть действительно полезным для команд при создании команды, которая хорошо работает вместе.

Надеюсь, вам понравилось это чтение. Все данные и скрипты вы можете найти на моем GitHub. Не стесняйтесь обращаться ко мне через LinkedIn. Чтобы узнать больше о NBA Analytics, попробуйте Анализ бесплатного агентства NBA с помощью машинного обучения.