Введение

Самая верная стратегия для победы в баскетбольном матче колледжа — набрать больше очков, чем другая команда. Или, как более искусно выразился Джон Мэдден: «Вы не можете выиграть игру, если не набираете ни одного очка».

Поэтому, когда дело доходит до моделирования вероятности победы, само собой разумеется, что самый простой способ предсказать, кто выиграет, — это предсказать, кто наберет больше очков. Разброс очков в Лас-Вегасе, как правило, очень хорошо предсказывает разницу в счете (Harville 1980), и этот разброс очков можно комбинировать с показателями эффективности, такими как количество очков на сотню владений мячом, для создания надежных классификаторов (Lopez and Matthews 2014).

Но иногда разброс очков недоступен, например, при составлении сетки для турнира NCAA, который требует прогнозирования исхода до публикации коэффициентов конкретной игры.

В этой статье делается попытка найти надежный двухэтапный процесс прогнозирования результатов, не полагаясь на оценки внешних экспертов или предсказания разброса баллов. Во-первых, разработайте надежный метод регрессии для прогнозирования разброса точек. Затем используйте прогнозы разброса точек в качестве входных данных для модели классификации (Лопес и Мэтьюз, 2014). Для каждого шага проверяются несколько методов, которые оцениваются на предмет точности прогнозирования на отложенном наборе данных¹.

Последним нововведением этой статьи является полная зависимость от данных, которые были бы в открытом доступе до начала игры².

Хотите узнать больше?

Недавно я перенес свои сообщения в блоге на новый личный сайт! Я бы хотел, чтобы вы это проверили. Остальную часть этого материала вы можете найти здесь и многие другие посты здесь.