Никто на самом деле никогда не говорит о типах данных, используемых в прогнозных моделях, но мы подумали, что это можно сделать, потому что это неотъемлемая часть нашей способности предлагать ведущую в отрасли маржу в 1%. Оказывается, что базовые данные действительно имеют значение, когда вы делаете прогнозы с помощью статистического процесса.

В этом примере мы рассмотрим данные MLB, которые делятся на четыре уровня.

А) Игровые данные

Б) Данные об иннинге

C) Данные о событиях (каждое на летучей мыши)

Г) Пространственно-временные физические данные

По мере того, как данные становятся более детализированными, повышается качество прогнозирования, но вместе с тем увеличивается и сложность вычислений. Причина, по которой эти вычисления являются такими дорогостоящими и сложными с точки зрения вычислений, заключается в том, что вам нужно создавать случайные шаги из когорты прошлых данных и счет имеет значение. Такие особенности, как мячи, удары, ауты и количество питчеров, существенно влияют на результат каждого смоделированного взаимодействия питча-ж / х. Подсчет тесно связан с индивидуальными результатами каждой моделируемой подачи, в отличие от мужчин в базовой и левой-правой стойках, которые почти не влияют на точные прогнозы результатов подачи.

Если вы подумаете об этих расчетах в контексте ставок во время игры, то после каждого шага мы хотим быстро вычислить новую вероятность выигрыша - эта ресурсоемкая задача должна быть завершена менее чем за 9–12 секунд. Таким образом, намного проще использовать данные о событиях, поскольку они сокращают необходимость исчерпывающих вероятностных вычислений. За счет устранения комбинаторного взрыва, связанного с подсчетом качки, вычисления увеличатся.

Хотя вы получаете большую скорость, перемещаясь вверх по цепочке данных к данным на уровне летучих мышей, вы быстро обнаруживаете, что предсказательная сила резко падает и, возможно, даже равна -EV. Данные событий приводят к потере всех удивительных данных прогнозирования, доступных в реальной физике каждой игры и игровых ситуаций, которые влияют на поведение.

Это верно для всех видов спорта - можно обнаружить значительную предсказательную корреляцию между расположением игрока, положением мяча и игровой ситуацией. Анализ пошаговых данных для поиска статистически значимых предикторов успеха и их анализ в предварительно запеченных вычислениях машинного обучения приводит к прогнозам с интенсивными вычислениями, особенно когда для прогнозирующей сходимости требуется 30 000 или более симуляций. Даже получить эти данные и разбить их на части - задача сама по себе, и это, вероятно, слишком сложно сделать для синдиката, особенно когда потоки данных, такие как NBA API, записывают движения игрока 25 раз в секунду с помощью стропильных камер.

В FansUnite мы уверены, что ансамбли лучших в своем классе алгоритмов, работающих с данными о спорте, - это будущее книжного дела, которое вытеснит модели большого объема. Мы с нетерпением ждем возможности применить методы, отточенные SaberCruncher в бейсболе, и применить их для создания более четких линий во всех основных видах спорта.

TL; DR - ›Пространственно-временные данные имеют большой размер и их сложно использовать в генеративных прогнозах, но прогнозируемое вознаграждение является значительным и стоящим, особенно при использовании машинного обучения. Букмекеры, использующие эти методы, смогут формировать более четкие линии и работать с гораздо более узкими маржами.

Хотите узнать больше?