Люди любят игры, особенно азартные игры, которые дают вознаграждение или приз при выборе правильного результата. Мы наслаждаемся взлетами и падениями, которые приходят вместе с участием в азартных играх, азартных играх. Азартные игры запускают систему вознаграждения мозга, которая в первую очередь связана с центрами удовольствия и мотивации, и высвобождают дофамин в организме. Это заставляет игрока чувствовать себя в приподнятом настроении, когда он ставит на кон и рискует. Дофамин является доминирующим драйвером энергии и главным нейротрансмиттером в системе вознаграждения. Азартные игры стимулируют «острые ощущения», которые запускают систему вознаграждения, которая высвобождает в десять раз больше, чем количество естественного вознаграждения.

С нашим химическим стремлением к азартным играм и постановлением Верховного суда США от мая 2018 г. в деле Мерфи против Национальной студенческой спортивной ассоциации о том, что Закон о защите профессионального и любительского спорта нарушает 10-ю поправку к Конституции США, таким образом что привело к способности каждого штата легализовать ставки на спорт, индустрия стала свидетелем огромного роста. Публичные компании, такие как DraftKings, FanDuel и Penn Gaming, в настоящее время могут управлять букмекерскими конторами и мобильными приложениями для ставок на спорт в 25 штатах и ​​​​округе Колумбия. Прогнозируется, что к 2025 году ставки на спорт принесут в США доход в размере 8 миллиардов долларов, а по некоторым оценкам — 25 миллиардов долларов. [1]

Эта индустрия отличается от азартных игр в казино, поскольку игрок может использовать статистические знания, чтобы сделать прогноз, в отличие от угадывания, скажем, в игре в рулетку. По мере того, как букмекеры собирают все больше и больше данных и разыгрывают десятки тысяч потенциальных игровых сценариев, возможно ли, чтобы средний игрок, вооружившись доступной статистикой, создал простую модель, которая могла бы дать им преимущество при выборе? Это предложение призвано определить именно это.

Ожидается, что посредством анализа и моделирования будут получены ответы на следующие исследовательские вопросы:

· Какие характеристики имеют наибольшее значение при определении выигрышной стратегии?

· Можно ли создать достаточно простую модель, позволяющую среднему пользователю взаимодействовать с результатами и интерпретировать их, не будучи чрезмерно сложной?

· Можно ли создать модель, которая может делать выборки с точностью выше 52,4%?

Футбол, в частности НФЛ, был выбран в качестве основы для этого предложения, поскольку стиль игры (несколько игроков, участвующих отдельно в нападении, защите и специальных командах) препятствует влиянию одного игрока на исход каждой игры. Кроме того, поскольку сезон короче, чем у Высшей лиги бейсбола и Национальной баскетбольной ассоциации, отдыхающих игроков не нужно учитывать в зависимости от игры.

Данные

Данные, как и в большинстве крупных видов спорта, обширны и всеобъемлющи. То, что было выбрано, позволило провести большое сравнение при определении множества факторов успеха. Используемый набор данных был получен от Stathead.com и Pro-Football-Reference.com, как профессиональных ресурсов спортивной статистики, так и дочерних компаний Sports Reference. Информацию о Sports Reference можно найти здесь.

Поскольку правила игры менялись из десятилетия в десятилетие, основное внимание уделялось играм, сыгранным с сезона 2010 года до завершения сезона Национальной футбольной лиги (НФЛ) 2019 года. Рассматривались только игры регулярного сезона; предсезонные или постсезонные игры не были включены. Все файлы данных можно найти в этом репозитории GitHub.

Подготовка данных

Поскольку Sports Reference потребовала, чтобы их сайты не очищались для данных, в дополнение к тому, что необходимые данные находились в нескольких местах, большая часть данных была собрана вручную и сохранена в файлах CSV. Чтобы продолжить анализ, потребовалось обширное преобразование и очистка данных. Поскольку большая часть данных должна была быть числовой и категоричной, преобразования для объектов были необходимы для половины первоначальных функций. Кроме того, было создано множество новых функций, позволяющих проводить углубленный анализ. Необходимо было рассчитать, усреднить и затем координировать из недели в неделю показатели (т. е. средний результат, пасовые ярды, обороты) для команд и соперников. Были созданы функции, относящиеся к сериям побед и поражений, а также полосы, связанные с рекордами против спреда и больше / меньше. Вся информация и действия, предпринятые для подготовки данных, доступны через Jupyter Notebooks, закодированные на Python, на странице Репозиторий GitHub, связанной с этим проектом.

Исследовательский анализ данных

Изучение данных привело к некоторым фундаментальным и интересным открытиям. Данные состоят из 5632 записей, 2816 игр с 1-й недели сезона 2010 г. по 17-ю неделю сезона 2019 г., которые состоят из одной строки для каждой команды, а также строки для соперника соответственно.

Если посмотреть на состав наших трех целей (Победы, Разброс, Больше/Меньше), дисперсия для каждой из них минимальна. При первом рассмотрении побед, поражений и ничьих было обнаружено, что 49,84% игр заканчиваются либо победой, либо поражением, при этом ничья определяет решение в 0,32% (это соответствует 9 играм в течение одиннадцати сезонов). . Что касается того, что команды не прикрывали, не прикрывали или не отталкивали, то процентное соотношение составляло 48,72% либо прикрывающих, либо не прикрывающих, а 2,56% заканчиваются пушем. В последней категории «меньше», «больше», «толчок» была обнаружена небольшая разница. Недостаточные результаты составили 49,43% результатов, более высокие результаты - 49,25%, а толчок - 1,31%.

Для дальнейшего изучения данные для каждой категории были разделены на атакующие и оборонительные средние значения, нормализованы [(Характеристика — Среднее значение характеристики) / Стандартное отклонение характеристики)] и представлены в виде диаграмм. Визуальные эффекты для каждой категории размещены ниже. Блочные диаграммы иллюстрируют, насколько верно клише о том, что футбол — это игра в дюймы. От 25-го процентиля (нижний квартиль) до 75-го процентиля (верхний квартиль) статистическая разница между выигравшей и проигравшей командой или командой, которая покрывает или не покрывает, минимальна. Разница проявилась в площадях выбросов. Отрыв от лучших команд и команд с некачественными результатами является резким.

Игры, в результате которых была ничья или толчок, были удалены для обучения и тестирования. Поскольку результаты для этих исходов минимальны, цель моделей состоит в том, чтобы классифицировать результаты игры по двум категориям (выигрыш или проигрыш, больше или меньше и покрытие или отсутствие покрытия). Кроме того, первая неделя каждого сезона была исключена, поскольку первая неделя каждого сезона устанавливает скользящие средние значения для каждой команды по ходу сезона.

Выбор функций и моделирование

Выбор признаков был наиболее важной и сложной частью анализа. Изначально количество функций было почти безграничным, поскольку мир профессиональной легкой атлетики отслеживает и учитывает каждый фактор, который может повлиять на игру. Чтобы сохранить ограниченность функций, правило сохранения модели, которую мог использовать неспециалист, было направляющей силой. При этом было жизненно важно выявить наиболее важные признаки, но не исключать и менее значимые. Это было необходимо для сохранения целостности данных, а также для обеспечения более широкого охвата способности каждой модели точно делать последовательные и достоверные прогнозы.

Стандартный масштабатор был развернут для преобразования данных. Используя Standard Scaler (нормализация z-показателя), признаки были стандартизированы путем удаления среднего значения и масштабирования до единичной дисперсии. Полученные признаки имели стандартное отклонение, равное 1, и среднее значение, близкое к нулю. Это позволило функциям сформировать почти нормальное распределение. Выбросы были проблемой, но масштабирование смогло сохранить их, но стабилизировать.

С тремя наборами данных (все данные, данные с превышением/недостатком, данные с разбросом), состоящими из 66–67 признаков, модель классификатора случайного леса использовалась для определения важности признаков. Модель классификатора случайного леса собирает значения важности функций, чтобы к ним можно было получить доступ через атрибут feature_importances_ после подбора модели классификатора случайного леса. Это показано на приведенной ниже диаграмме, где отображаются результаты анализа важности функции «больше/меньше».

После определения важных признаков был выполнен дополнительный анализ, чтобы определить, присутствует ли мультиколлинеарность в указанных признаках. Тепловые карты корреляции были построены для быстрого отображения признаков с высокой корреляцией. Путем удаления признаков с корреляцией выше или равной 0,75 исходные признаки были существенно уменьшены (модели спреда — 29 признаков, модели «больше/меньше» — 31 признак, модели-победители — 25 признаков).

Данные были случайным образом разделены на 80% обучающих и 20% тестовых наборов данных. С целью создания простых моделей для среднего игрока в центре внимания будет классификация, а не регрессия. Определение вероятности выигрыша или проигрыша, в отличие от предсказания конкретного результата подсчета очков, может быть проще для понимания. Поскольку это была проблема прогнозирования классификации, для оценки были выбраны следующие модели: классификатор случайного леса, логистическая регрессия, классификатор K соседей, гауссовский наивный байесовский метод и искусственная нейронная сеть. Была создана простая функция для отображения метрик каждой модели. Каждая модель была подобрана и настроена с использованием набора обучающих данных, а прогноз был сделан и оценен с использованием данных тестирования. Модели были построены с помощью Python. Подробности, касающиеся выбора признаков и построения модели, можно найти здесь.

Результаты

Результаты варьировались от категории к категории. Глядя сначала на результаты при прогнозировании команды-победителя, модели показали себя достаточно хорошо и последовательно по всем направлениям. Точность варьировалась от 64 до 66%, при этом точность, полнота и F1-Score были относительно одинаковыми. Это было лучше, чем ожидалось, поскольку прогнозы основывались исключительно на данных предыдущих сезонов, а новые данные не добавлялись в течение сезона 2020 года.

После того, как каждая модель завершила недельный сезонный цикл 2020 года и рассмотрела результаты, была создана дополнительная «модель ансамбля». Эта модель была разработана для просмотра игр, в которых модель имела высокий уровень уверенности в своем прогнозе, а не для просмотра прогноза каждой игры. Это было сделано, поскольку игрок крайне редко делает ставку на каждую игру каждую неделю. Вместо этого игрок ищет игры с высоким уровнем достоверности или с выгодными коэффициентами отыгрыша. Хотя новая «модель» не является настоящей моделью ансамбля или реальной моделью, при оценке игр использовались определенные показатели:

1. Доверительный порог был установлен после завершения прогнозов на 2-й неделе. Эти базовые уровни достоверности можно увидеть здесь.

2. После того, как были созданы новые кадры данных, каждая игра оценивалась для определения согласованного прогноза моделей. Выбор большинства (т. Е. 2–1) был необходим для того, чтобы игра была допущена к выбору. Если четкого консенсуса не было (т. е. 2–2), игра обозначалась как толчок, и метрика выбора не применялась. Модель получила название «Консенсус с поправкой на порог доверия» (CTAC).

Результаты этой модели были впечатляющими. Хотя количество игр, выбранных в соответствии с критериями отбора, было меньше, чем у других пяти, количество выбранных игр все же было значительным. Результаты финального сезона для всех моделей перечислены ниже.

Заключение

В целом ясно, что прогнозная аналитика — это инструмент, который можно использовать в индустрии спортивных ставок. Создатели коэффициентов десятилетиями использовали статистику для составления таблицы, а теперь они используют алгоритмы, чтобы сделать свои оценки более точными. Сегодня, обладая небольшими знаниями, средний игрок имеет доступ к большему количеству информации и анализу, чем когда-либо в истории. Модели, созданные для этого проекта, ориентированы на сохранение упрощенного подхода к сбору, очистке и форматированию данных. Была внедрена ограниченная расширенная аналитика, чтобы новичок в науке о данных мог следить за своим пониманием ставок на футбол.

Вопросы, на которые должен был ответить этот проект, были решены во всеоружии. Важные функции и переменные были легко идентифицированы, ряд моделей смог постоянно превышать уровень точности 52,4% (что позволяет им технически быть прибыльными при использовании в игровой ситуации), но все еще сомнительно, чтобы средний игрок мог достичь этого. задача. Данные легко доступны, но навыки, необходимые для сбора, проверки и анализа информации, скорее всего, выходят за рамки того, кто не имеет навыков программирования и анализа данных. Это не означает, что с помощью фундаментальных исследований задача не может быть решена, скорее потребуются исследования и обучение. Кроме того, для более сложных моделей потребуется больше функций и параметров, особенно если регрессия будет использоваться для прогнозирования фактических результатов обеих команд.

[1] Ассошиэйтед Пресс. (2019, 4 ноября). Ожидается, что к 2025 году рынок ставок на спорт достигнет 8 миллиардов долларов. 11-04».

[2] Роденберг, Р. (2020, 3 ноября). Соединенные Штаты ставок на спорт: обновленная карта того, где находится каждый штат. Получено с https://www.espn.com/chalk/story/_/id/19740480/the-united-states-sports-betting-where-all-50-states-stand-legalization.