Контекст - проклятие как для хоккейных фанатов, так и для аналитиков и руководителей фронт-офиса. В хоккее наиболее популярной статистикой, позволяющей судить о достоинствах игроков, являются очки. Очки игрока - это сумма забитых игроком голов, основных передач (передача, которая непосредственно предшествует голу) и дополнительных передач (передача, которая предшествует основной передаче).

Какие очки - как метрика - выигрывают от простоты, они теряют статистическую полезность. Почему голы имеют такую ​​же ценность, как и основные и второстепенные передачи? Должны ли первичные и вторичные передачи иметь одинаковую ценность? Почему бы нам просто не игнорировать моменты и не рассматривать каждый компонент индивидуально? Поскольку хоккей - это относительно случайный вид спорта, разве голы и ассисты не являются случайным шумом? У каждого из этих вопросов есть свои достоинства, и, честно говоря, на все они сложно ответить. Используя данные для прогнозирования и оценки выступлений хоккеистов, мы часто ограничиваемся небольшими общедоступными данными. Тем не менее, как я объясню далее в этой статье, я думаю, что в таблице результатов есть ценная информация, которую хоккейным аналитикам еще предстоит в достаточной мере использовать, и применение сетевого анализа к подсчету результатов в хоккее может помочь.

Сетевой анализ, отношения и хоккей

Сеть - это совокупность узлов (таких как люди, продукты, веб-страницы или хоккеисты), связанных отношениями или ассоциациями какого-либо рода (известных как ребра). Сетевой анализ относится к инструментам и анализу, используемым для понимания тонкостей внутри конкретной сети, таких как важные узлы, сообщества узлов в сети и отношения между узлами.

В рамках сетевого анализа есть несколько способов оценить важность или влияние узла - в данной ситуации хоккеиста. Меры, используемые для оценки важности узла в сети, известны как «меры центральности». Популярные меры центральности включают центральность между, центральность, центральность по собственному вектору и PageRank. Хотя каждая из этих мер полезна в различных ситуациях, центральность промежуточности является наиболее подходящей для этого анализа.

Центральность промежуточности публично применялась к хоккею и раньше, хотя только в отношении бросков и передач и только в ограниченных примерах. Стив Бёрч говорил о промежуточной центральности и других показателях центральности с точки зрения бросков и передач на конференции RIT Hockey Analytics в 2015 году. Райан Стимсон кратко упомянул промежуточную центральность и другие меры центральности с точки зрения бросков и передач во время ОХЛ 2015 года. плей-офф .

Центральность по промежуточности измеряет, как часто узел находится на кратчайшем пути между парой узлов. Таким образом, узел, который в данной ситуации является хоккеистом, будет иметь высокий балл центральности между узлами, если он действует как «мост» в сети между двумя другими узлами, так что информация должна проходить через него, чтобы два других узла могут передавать информацию друг другу. Центральность промежуточности часто используется для измерения «влияния» узла, так что, если узел с относительно высокой оценкой промежуточности удален, он будет иметь наибольшее относительное влияние на информационный поток соответствующей сети.

Итак, это немного сбивает с толку. Что это значит для хоккея? Что ж, давайте сначала попробуем представить себе подсчет очков в хоккее в виде сети, в которой каждый игрок является узлом, а связи - или «ребра» - представляют собой основные передачи к воротам каждого игрока и от них. Приведенная выше визуализация может помочь.

С точки зрения хоккея, игрок будет иметь высокий балл центральности посредничества, если:

  • Игрок забивает и помогает по множеству голов
  • Игрок забивает и ассистирует по многим различным воротам.
  • Товарищи по команде полагаются на игрока при подсчете очков, так что голы и передачи товарищей по команде, как правило, происходят только при непосредственном участии этого игрока.
  • Игрок выполняет некоторую комбинацию вышеуказанных требований больше, чем его товарищи по команде.

Вот пример - Джо Торнтон в 2006 году, как правило, помогал по голам многих игроков и забивал благодаря голевым передачам многих игроков, тогда как Джонатан Чичу, забив в этом сезоне 56 голов, имел тенденцию забивать благодаря голевым передачам Торнтона. В каком-то смысле Чичу полагался на Торнтона в своих счетах, но Торнтон не полагался на Чичу. Хотя я не проверял эту гипотезу, у Торнтона, вероятно, был бы более высокий показатель центральности промежуточности, и, исходя из этого, мы могли предположить, что Торнтон имел большее влияние на результаты своей команды, чем Чичу.

Методы и результаты

В ближайшие недели или две я напишу сообщение о моих конкретных методах и коде для этого анализа, а пока я напишу краткое изложение своих методов.

Что касается моих данных, я предполагаю, что моя сеть направлена. В теории графов различают направленные и неориентированные сети. Ненаправленные сети предполагают, что потоку информации не присуще «направление» - в этой ситуации - забивание голов. Однако, поскольку голы и передачи по своей сути не равны, я считаю, что моя сеть ориентирована.

Для каждой отдельной команды в моем наборе данных - например, для Эри Оттерс 2014–2015 годов - я вычисляю баллы центральности промежуточности для каждого игрока в команде. Эти баллы нормализованы по отношению к каждой команде, так что все баллы промежуточности варьируются от 0 до 1. Торговые игроки создают небольшую философскую трудность, поскольку в моей нынешней структуре они являются частью двух различных сетей. Чтобы попытаться решить эту проблему, я суммирую нормализованные баллы промежуточности этих игроков в течение каждого сезона, так что у каждого игрока есть 1 балл промежуточности за 1 сезон. Хотя этот метод не является полностью статистически надежным, он оказался наименее трудоемким методом, который я мог бы использовать, сохраняя при этом необходимый мне объем данных.

Затем, чтобы учесть влияние, которое игра оказывает на показатели промежуточности игрока, я корректирую показатель промежуточности каждого игрока на остаток модели линейной регрессии с промежуточностью и играми в качестве зависимых и независимых переменных соответственно. Сначала я попытался учесть различия в играх, разделив баллы промежуточности на количество сыгранных игр. Тем не менее, это все еще недооценивало дополнительное влияние большего количества игр на результативность игрока. Этот процесс дал мне то, что я называю «скорректированными оценками промежуточности».

Затем я повторил этот процесс для каждой силы игры - 5 на 5, всех ситуаций, даже силы (5 на 5, 4 на 4, 3 на 3), Power Play и Penalty Kill - чтобы найти предполагаемое влияние каждого игрока для каждой из этих ситуаций (имейте в виду, что в Power Play и Penalty Kill забито относительно мало голов, поэтому я бы не стал особо вкладывать в эти соответствующие баллы промежуточности).

Теперь, когда я подсчитал показатели промежуточности всех игроков для каждой силы игры, я подсчитал количество очков за игру для каждого игрока с поправкой на возраст, лигу и эпоху. Я скорректировал количество очков за игру таким же образом, как и показатель промежуточности для сыгранных игр. Используя возраст (в качестве числовой переменной), лигу (WHL, OHL, QMJHL, USHL или AHL) и эпоху (конкретный сезон, например, 2007–08, 2008–09 и т. Д.) В качестве независимых переменных, я вычислил « ожидаемое количество очков за игру для каждого игрока с учетом его возраста, сезона и эпохи. Затем я вычел их ожидаемое количество очков за игру из их фактического количества очков за игру, чтобы получить «скорректированный показатель очков за игру». Я выполнил этот процесс для 5-на-5 и для всех ситуаций.

Итак, теперь я скорректировал показатели промежуточности и скорректировал количество очков за игру. Стандартизируя каждую из этих переменных так, чтобы они имели одинаковую шкалу, я вычисляю среднее значение этих двух показателей для каждого игрока, чтобы получить «средний рейтинг». Это полезно, поскольку наказывает игроков с высокими показателями промежуточности, но низкими показателями очков за игру - например, Мартин Фаско-Рудас - поскольку во многих ситуациях эти игроки имеют высокие показатели промежуточности, потому что их голы и передачи напрямую связаны с товарищами по команде, которые либо не играл, либо забивал часто. Эти товарищи по команде, согласно модели, будут полагаться на этого игрока, несмотря на то, что тот игрок не оказывает существенного влияния на их результат. С другой стороны, игроки с низкими показателями промежуточности, но относительно высокими показателями очков за игру, такие как Барретт Хейтон и Роберт Томас, получают повышение, поскольку трудно быть «влиятельным» игроком в команде с большим количеством звезд.

Последствия для проекта 2018 года

Двое из самых интригующих перспектив, представленных на драфте НХЛ-2018, - это Оливер Уолстрем и Джоэл Фараби. Как правило, большинство скаутских служб оценивают Оливера Уолстрома как лучшего кандидата, чем Джоэла Фараби, и это часто основывается на том, что Уолстрем имеет более высокое количество голов и очков, чем Фараби. Однако, пытаясь понять контекст, в котором забил каждый игрок, появляется другая история.

Взгляните на 3 рисунка ниже. Они иллюстрируют все голы 5 на 5 Джека Хьюза, Оливера Уолстрома и Джоэла Фараби в USHL в 2017–2018 годах.

Так что это показывает? В игре 5 на 5 у Джека Хьюза было 28 основных очков, у Джоэла Фараби - 19, а у Оливера Уолстрома - 23. Если бы мы знали об этих игроках только то, сколько они набрали основных очков, мы могли бы сказать Хьюз ›Уолстрем› Фараби.

Однако мы также знаем, кто забивал и ассистировал по воротам каждого игрока. Глядя на голы и передачи каждого игрока, мы видим, что у 14 разных игроков были голы или передачи, напрямую связанные с Джеком Хьюзом. У Фараби было 10. У Уолстрома было 7. Если смотреть дальше, из 23 основных очков Уолстрома 9 были напрямую связаны с Джеком Хьюзом.

Хотя это, вероятно, не очевидно из этих графиков, Джеку Хьюзу едва исполнилось 17 лет, и он является элитным талантом, который, вероятно, будет выбран первым в общем зачете в 2019 году. Это большое дело. Если 9 из 23 основных очков Уолстрома были напрямую связаны с будущей суперзвездой, насколько мы можем быть уверены в том, что Уолстрем лучший продюсер, чем Фараби, у которого 2 из его 19 основных очков были напрямую связаны с Хьюзом?

Честно говоря, непонятно, и ничего страшного. Этот тип анализа важен для понимания контекста игры игроков. В конце концов, когда команда выбирает Оливера Уолстрома, они хотят знать, все ли 23 из его основных очков были на самом деле его или он отвечает только за 14.

Каким бы важным ни был этот анализ, он требует времени. Вот где блестит расчет промежуточных оценок. Он выполняет все то, что я только что объяснил, но в большем масштабе и гораздо быстрее. Как видно из таблицы, которую я приложил ниже, из этих трех игроков самый высокий показатель промежуточности у Хьюза, за ним идет Фараби, а затем Уолстрем.

Последние мысли

Итак, как и любой другой показатель, центральность посредничества не идеальна. Центральность посредничества - это относительный показатель, в котором показатель промежуточности соотносится с командой этого игрока. Итак, как я объяснил ранее с Барреттом Хэйтоном и Робертом Томасом, если игрок находится в команде, талантливой в атаке, этот игрок может показаться менее влиятельным с точки зрения результативности, чем он есть на самом деле.

Подводя итог всему тому, что я сделал:

Плюсы промежуточности

  • Он предоставляет много информации о контексте игрока с одним числом
  • Это одна из немногих (возможно, единственных) метрик, учитывающих контекст в производственной среде.
  • Кто угодно может рассчитать промежуточность практически для любой лиги (при условии, что лига имеет данные о том, кто забивает и кто помогал в достижении этого гола).

Минусы промежуточности

  • Игроки не выбирают своих одноклубников / товарищей по команде

В конце концов, какой смысл в статистике? В чем ценность WAR (Wins Above Replacement)? На мой взгляд, ценность WAR заключается в том, что он объединяет большой объем информации о роли, ценности и влиянии игроков в одно число. Затем мы можем использовать это единственное число, чтобы узнать, в каких конкретных областях игры может преуспеть тот или иной игрок. То есть на цифре анализ не заканчивается - он только с него начинается. И это - то, что я считаю важным запомнить в отношении оценки промежуточности игрока. Оценка промежуточности игрока может дать нам много информации о контексте этого игрока, но это только один из способов сделать это. Использование оценок промежуточности в анализе может быть чрезвычайно полезным, но это больше похоже на градусник, чем на настоящего врача.

В любом случае, вот и все. Спасибо за прочтение. Щелкните здесь, чтобы получить доступ к электронной таблице показателей промежуточности игроков WHL, QMJHL, OHL, AHL и USHL за последние 15–20 лет (в зависимости от лиги), а также скорректированных оценок по возрасту, лиге и эпохе. И если вы являетесь частью толпы Anti-Hyperlink (я знаю, что вы все где-то там), вот ссылка:

Https://docs.google.com/spreadsheets/d/13Ae2mQU9Bt7U0_lKkje5r_b5ihNLh1xWDdwoQX9C8y0/edit?usp=sharing

Вы можете найти меня в Твиттере (@OppenheimerEvan), и вы можете свободно писать мне, если у вас есть какие-либо вопросы, или писать мне по электронной почте на [email protected]. Кроме того, ждите от меня еще нескольких анализов, связанных с хоккеем, в ближайшие недели.

Мне нужно поблагодарить Мэтта Барлоу, Хайден Спик и Майкла Лопеса. Без Мэтта, который еще в марте щедро делился своими данными о матчах НХЛ, я бы никогда не начал проект такого масштаба. И все данные, которые я использовал в этом проекте, были щедро предоставлены Хайденом. Я не могу достаточно отблагодарить его за работу, которую он вкладывает в свой сайт Prospect-Stats.com. И огромное спасибо Майклу Лопесу за просмотр моих методов - я очень признателен за ваш отзыв. Наконец, спасибо всем, кто следил за мной в Твиттере от начала этого проекта до его полузавершения. Я много раз терял мотивацию закончить это, но все вы оказали поддержку, в которой я нуждался, чтобы пройти через это.