Сердечно благодарим мистера ПЬЕРА Джона Грегая, профессора бизнес-школы KEDGE, который поддерживал меня в этом проекте.

Этот отчет представлен в рамках курса «Навыки и методы бизнес-исследований» в бизнес-школе KEDGE.

Резюме

В этом отчете я затрагиваю несколько тем, таких как предварительная обработка данных, математические формулы, вероятностные законы, машинное обучение или деревья регрессии. Однако основная цель состоит в том, чтобы помочь игрокам оптимизировать и диверсифицировать свои ставки. На самом деле, многие игроки слишком много внимания уделяют популярным видам спорта или лигам, потому что они представляют для них что-то осязаемое. Они знают игру, команды, игроков, правила и т. д. Более того, их ставки часто субъективны, потому что ими движут эмоции, чувства или привязанность к чему-то, что они понимают. С помощью этого исследования я пытаюсь предложить игрокам новые возможности. Во-первых, мой подход опирается только на данные, математику и искусственный интеллект, чтобы стереть любое иррациональное субъективное действие. Затем он ломает психологические границы, предлагая анализ лиг по всему миру, от Косово до Колумбии, обычно гораздо более прибыльный, чем известные чемпионаты.

Для этого я сосредоточил свои исследования на футболе и использовал несколько инструментов. Во-первых, программа веб-скрейпинга помогла мне собрать и сохранить более 12 000 результатов игр сезона 2020/2021 в чистой базе данных Excel. Затем я разработал алгоритм VBA для манипулирования и предварительной обработки данных с использованием математических формул и вероятностных законов. Как только данные были готовы, я применил алгоритм машинного обучения, чтобы выделить шаблоны и правила в каждой лиге.

В итоге сделал несколько выводов. Во-первых, все лиги не равны. Некоторые из них гораздо более предсказуемы и прибыльны, чем другие. Это означает, что производительность и точность модели, которую я разработал, сильно различаются в зависимости от лиг. Есть «хорошие ученики», но есть и «болваны». Средняя вероятность успеха предсказания моей модели составляет около 54%, но этот результат был улучшен за счет выбора сильной степени достоверности. Тогда цели выполнены. Прогнозы моей модели далеки от совершенства, но они полностью объективны и основаны на логическом мышлении. Никакие личные суждения или эмоции не вмешиваются в модель после ее завершения. Таким образом, игроки могут принимать во внимание результаты для своих ставок или нет. Тогда вторая цель также была достигнута. Среди «хороших студентов» часто не учитываются некоторые лиги, которые предлагают новые варианты азартных игр.

Сокращение

1. Введение

Предсказать исход спортивной игры – магическая сила, которой хотели бы обладать многие люди на земле. Это может привести к богатству и успеху, как показывает нам фильм «Назад в будущее, часть II» (Zemeckis, 1989) с его одиозным антагонистом Биффом. На протяжении веков люди пытались предвидеть эти священные результаты, особенно в азартных играх (McMillen, 2005), но без оглушительного успеха. Однако последние несколько лет принесли новый инструмент, возродивший золотую лихорадку: машинное обучение. Определением этой концепции будет способность объекта самосовершенствоваться и понимать фундаментальные законы статистики, вычислений, теории информации, управляющие системой (Jordan & Mitchell, 2015). На этом этапе мы могли легко представить применение ML во многих компаниях или секторах, проанализировав его данные. Однако в этом исследовании мы сосредоточимся только на его применении для прогнозирования футбольных матчей. На самом деле футбол — самый популярный вид спорта в мире (Dunning, 2014), и его популярность в основном связана с его случайностью (Kumar, 2014). Таким образом, предсказание исхода матча кажется довольно трудоемким, но остается системой, подчиненной основным математическим законам. Таким образом, за последние несколько лет в нескольких статьях было рассмотрено применение МО для прогнозирования футбола. В 2017 году группа исследователей опубликовала большую футбольную базу данных, в которой с 2000 года собрано более 230 000 результатов футбольных матчей из 52 лиг в 35 странах (Dubitzky et al., 2019). Затем они предлагают людям предсказать результаты 206 поступающих игр с помощью машинного обучения и на основе этой базы данных. В итоге лучшая команда достигла точности 51,89% (Dubitzky et al., 2019).

Однако, наряду с вероятностью успешных прогнозов, машинное обучение дает игрокам еще одну дополнительную ценность. Это позволяет проводить объективный и рациональный анализ без каких-либо субъективных вмешательств. На самом деле слишком многие игроки руководствуются своими эмоциями, чувствами или привязанностями. Они часто делают ставки на популярные лиги, широко известные как «Большая пятерка» (Англия, Германия, Испания, Италия и Франция), потому что в ней есть что-то осязаемое для них. Они знают лиги, команды или игроков и имеют о них мнение. Это восприятие заставляет их иногда совершать иррациональные действия или позиции. С другой стороны, машинное обучение полностью объективно, оно опирается на данные и подчиняется только математическим и вероятностным законам. Кроме того, он предоставляет анализ и прогнозы для лиг, которые часто упускают из виду игроки, что может быть гораздо более прибыльным.

Итак, с помощью этого исследования я пытаюсь предложить игрокам новые возможности. Во-первых, как я уже сказал, подход опирается только на данные, математику и искусственный интеллект, чтобы стереть любое иррациональное субъективное действие. Затем он ломает психологические границы, предлагая анализ лиг по всему миру, от Косово до Колумбии, обычно гораздо более прибыльный, чем известные чемпионаты. Что касается объема моей работы, я не буду пытаться предсказать победителя, а скорее забьют ли обе команды в конкретной игре. Этот вопрос представляет собой известную ставку в сообществе игроков.

Подводя итог, цель состоит в том, чтобы понять, как машинное обучение может быть полезно для азартных игр. Таким образом, целями будут:

1. Разработать актуальную модель прогнозирования голов в футболе с использованием предварительной обработки данных, вероятностных законов и машинного обучения.

2. Найти выгодный способ использования этих прогнозов для игроков.

Однако на данном этапе важно понимать, что модель, которую я использовал, представляет собой комбинацию сделанного мной личного выбора. Каждый шаг вызывает сомнения, и существует множество других вариантов или альтернатив. Я выбрал субъективно лучшие варианты с точки зрения моих знаний и навыков. Таким образом, в рамках этого исследования я занимаюсь несколькими, но связанными между собой темами, такими как сбор и хранение данных, предварительная обработка данных, рейтинг футбольных команд, машинное обучение, программирование и стратегия азартных игр. Для каждой концепции я объясню, почему и как я применил ее в своем исследовании относительно других доступных вариантов.

Что касается структуры отчета, сначала я проведу обзор литературы и оспорю несколько статей, посвященных ML для футбольных прогнозов. Мы более подробно рассмотрим, как выбирать и манипулировать данными. Затем я подробно расскажу о построении моей модели, прежде чем обсуждать результаты. Наконец, мы перечислим несколько выводов, сделанных этим исследованием.

2. Обзор литературы

В нескольких статьях, с которыми мы столкнемся в этом обзоре литературы, предпринимались попытки применить машинное обучение в футбольных прогнозах с различными подходами. Таким образом, следующий раздел направлен на то, чтобы противостоять этим подходам и использованию ML в футбольном прогнозировании, особенно посредством подачи и обучения алгоритмов ML.

2.1 Выбор данных

При использовании машинного обучения первым шагом является предоставление алгоритму данных. Если способ питания человека будет влиять на его поведение и здоровье (J. Polivy, 2005), то это утверждение эффективно и для машинного обучения. Наша первая конфронтация заключается в этом вопросе. Действительно, данных, используемых ML в футбольных прогнозах, много, и их можно сегментировать несколькими способами, такими как лиги, сезоны, страны и т. д. Первая школа мысли утверждает, что чем больше у вас данных, тем лучше будут ваши прогнозы. На первый взгляд, это кажется вполне логичным. Чем больше перспектив вы соберете, тем точнее будет ваш прогноз. Следуя этой идее, А. Константину утверждает в своей статье, что машинное обучение может «предсказывать результаты футбольных матчей в одной стране, наблюдая за футбольными матчами в нескольких других странах» (Constantinou & Mary, 2019). На первый взгляд, это утверждение кажется последовательным, потому что футбольные правила остаются одинаковыми, где бы вы ни находились — в Бразилии или Израиле. Однако разные лиги также известны тем, что имеют несколько стилей игры. Например, два разных чемпионата могут иметь разрыв в среднем более 3,5 голов за игру (SoccerVista, 2021). Вот почему документ 2019 года оспаривает предыдущее утверждение и утверждает, что из-за разных контекстов машинное обучение должно лучше «сохранять контекст лиги/сезона на всем протяжении и создавать специальную модель прогнозирования на основе каждого подмножества данных о лиге/сезоне». (Беррар и др., 2019). Однако, даже если эти две статьи бросают вызов самим себе в географическом плане, они оба соглашаются, как и Г. Кумар (Kumar, 2014), что последние данные гораздо более актуальны для футбольных прогнозов, чем более старые.

2.2 Подача машинного обучения

Теперь, когда мы обсудили проблему подачи данных, давайте рассмотрим идеи, связанные с обучением машинному обучению для футбольных прогнозов.

Действительно, после того, как вы выбрали данные, которые ваш ML будет использовать для своих прогнозов, теперь вам нужно научить его, как их использовать и управлять ими. Этот вопрос в основном зависел от математического выбора, а также от футбольного подхода. Большинство работ сходятся во мнении, что ML обучают рейтинговой системе, в которой команды описываются «признаками, которые характеризуют команду с точки зрения ее сильных и слабых сторон, имеющих отношение к исходу матча» (Berrar et al., 2019). Подводя итог, этот рейтинг является переводом силы атаки и защиты команды, а также других параметров. Однако некоторые исследования пошли дальше, например, модель А. Константину, разработав модели, которые «сочетают рейтинговую систему с гибридной байесовской сетью» (Constantinou & Mary, 2019). Таким образом, добавляются законы вероятности для полировки предсказаний. Однако эти две статьи подходят к футбольным командам сверху, оценивая команду в ее глобальности, тогда как Г. Кумар оценивает ее снизу, сосредоточив внимание на «показателях эффективности игроков» (Kumar, 2014). Понятие командного рейтинга остается, но цель модели заключается в том, чтобы «агрегировать рейтинги отдельных игроков для получения набора командных рейтингов» (Kumar, 2014).

3 Метод

В этом разделе я опишу несколько шагов, которые я использовал, чтобы прийти к своим окончательным выводам, от сбора данных до прогнозирования целей. Таким образом, я также объясню, как я занимался вопросами отбора данных и подачи машинного обучения, которые мы обсуждали в предыдущем обзоре литературы. Крайне важно понимать, что следующий метод основан на субъективном выборе. Нужно полностью осознавать, что каждый шаг сомнителен и, вероятно, имеет одну или несколько альтернатив. Я выбрал лучший вариант для меня с учетом моих навыков и знаний.

3.1 Сбор данных

Что касается сбора данных, я использовал программу парсинга веб-страниц под названием Power Quarry, доступную в MS Excel. Этот инструмент помогает мне выполнить две основные задачи:

1. Соберите и сохраните данные из уже сыгранных игр.

2. Очистите и сохраните данные для предстоящих игр.

Все эти данные взяты с открытого и надежного веб-сайта (SoccerVista.com). Программа подключается к веб-сайту, определяет, что называется таблицами, и копирует их в электронную таблицу Excel. Преимущество этого метода заключается в том, что после выполнения запросов при каждом обновлении документа будут добавляться все последние результаты. Таким образом, я вручную создал запрос для каждой лиги, которую я хотел охватить, всего 60 подключений. Эти 60 лиг соответствуют наиболее распространенным лигам, доступным во французских онлайн-букмекерских конторах.

После того, как данные были собраны, я организовал и сохранил их в однородной и чистой базе данных благодаря разработанному мной алгоритму VBA (Приложение A). Для каждой игры я собирал информацию о лиге, сезоне, раунде, дате, названиях хозяев и гостей, а также о количестве голов, забитых хозяевами и гостями.

В итоге база данных содержала более 12 000 строк и около 102 000 фрагментов данных. Что касается выбора данных, обсуждавшегося в предыдущем обзоре литературы, я решил собрать данные только за текущий сезон 2020/2021 и отсортировал их по лигам, чтобы затем позволить машинному обучению создавать единые однородные шаблоны для каждой лиги.

3.2 Предварительная обработка

Как только данные были сохранены в однородном и чистом виде, мне пришлось их предварительно обработать. Это обязательный шаг для алгоритма ML. На данный момент сбор данных в базе данных был слишком рядовым и непригодным для использования. Таким образом, мне пришлось преобразовать его в то, что я называю аргументами, чтобы передать ML.

Сначала для каждой игры я рассчитывал силу атаки и защиты для обеих команд, представляющую среднее количество голов, забитых или пропущенных дома для HT и на выезде для AT.

Разделение между домашними и выездными играми имеет важное значение. Во многих видах спорта было доказано, что команда хозяев всегда имеет небольшое преимущество перед командой гостей из-за нескольких факторов, таких как психологическая легкость, поддерживающая толпа и т. д. Таким образом, при расчете атаки и защиты мы должны различать домашнюю команду. и выездные игры. Я также вычислил общий AS и DS лиг.

Затем, когда у меня были свои AS и DS как для домашней, так и для гостевой команды, я вычислил так называемый «ожидаемый гол» для каждой команды.

Наконец, я применяю известный вероятностный закон, называемый законом Пуассона, который позволяет предсказать вероятность будущего события на основе среднего значения предыдущего возникновения этого же события. Простое объяснение закона Пуассона доступно в Приложении C.

В конце этого процесса для каждой предстоящей игры я получаю процент, основанный на результатах всех предыдущих игр двух противоборствующих команд. Другими словами, BTS представляет собой процент, который обе команды забьют в соответствующей игре. Моделирование всего процесса вычисления аргумента доступно в Приложении B. Благодаря динамической базе данных проценты корректируются ежедневно, включая самые последние игры. Я добавил эти проценты во вторичную базу данных, которую использовал для раздела машинного обучения.

Наконец, я также вычислил второй процент BTS без различия между домашними и выездными играми из-за Covid-19. Фактически санитарный кризис поставил под сомнение преимущество хозяев из-за отсутствия толпы и публики во время игр. Кроме того, я также вычислил разницу в очках между командами.

3.3 Приложение машинного обучения

Существует несколько алгоритмов машинного обучения, таких как k-NN, деревья решений, нейронные сети и т. д. Их полезность в основном зависит от цели. Для своего исследования я использовал модель дерева решений для бинарной классификации. Такой выбор был обусловлен двумя основными причинами. Сначала я пытаюсь предсказать, забьют ли обе команды в конкретной игре. Это бинарный вопрос с двумя возможными ответами: да или нет. Таким образом, деревья решений очень хорошо подходят из-за структуры алгоритма. Затем деревья решений генерируют легко управляемое дерево регрессии, в отличие от других алгоритмов, которые можно сравнить с закрытым «черным ящиком».

На данный момент мне нужно уточнить, почему я использовал алгоритм ML, тогда как у меня уже были проценты BTS. Действительно, если мой BTS составляет 90%, должно быть 9 из 10 шансов, что обе команды забьют во время соответствующей игры. Однако этот процент не является точной наукой, и, как я объяснял ранее, все лиги не равны. Кроме того, есть некоторые шумы, которые мешают проценту BTS. Например, когда две сильные команды встречаются друг с другом, они часто имеют хороший AS и поэтому должны забивать во время игры. Но в этих играх ставки очень высоки, поэтому команды часто усиливают свою защиту, и в конце, даже если BTS высок, обе команды часто не забивают. Итак, у ML было две основные цели:

1. Найдите несколько «порогов» внутри каждой лиги.

2. Сотрите шумы, которые изменяют процент прогнозов.

После того, как ML съел предыдущую базу данных, он генерирует модель и дерево регрессии для каждой охваченной лиги. Процесс машинного обучения, разработанный для Rapid Miner, доступен в Приложении D.

4 Анализ данных и обсуждение

Чтобы оценить мои результаты, процесс машинного обучения позволил мне определить точность моей модели. В начале данные разбиты на два блока. Первый блок, представляющий 80% данных, служит ML для поиска правил и шаблонов для каждой лиги. Затем эти же правила и шаблоны применяются к оставшимся 20% для оценки точности. В итоге модель имела точность 52,02% со всеми аргументами (две BTS и точечный зазор) и точность 54,02% только с первым аргументом BTS.

Подводя итог, модель смогла предсказать с точностью 54,02%, будут ли обе команды забивать или нет в какой-либо игре в 60 различных лигах. Однако я пошел дальше и повторно запустил алгоритм машинного обучения со всеми играми, сыгранными до 1 апреля 2021 года. Затем я использовал свое дерево регрессии, чтобы предсказать исходы нескольких выбранных игр апреля 2021 года. Этот выбор был основан на достоверности, которую алгоритм имел с собственные предсказания. Таким образом, я выбрал только игры с достоверностью 75% и не менее чем с 14 шагами назад. Мне удалось достичь коэффициента предсказания 61,22%. Затем я отметил, что некоторые лиги были более предсказуемы, чем другие, «хороший ученик», о котором я говорил во введении.

Наконец, я оставил только лиги с показателем успеха выше 65% и получил окончательный показатель прогноза 76,12% на апрель 2021 года.

5. Выводы

В заключение, мои цели были выполнены. Общая модель с вероятностью успеха 54,02% удовлетворительна. Победитель конкурса машинного обучения 2017 года достиг коэффициента предсказания 51,89% (Dubitzky et al., 2019). Однако цель состояла в том, чтобы предсказать победу, ничью или поражение, в то время как я довольствуюсь тем, что предсказываю, забьют обе команды или нет, что проще из-за бинарной проблемы. Затем, если вы требовательны и избирательны, вы можете добиться более высоких показателей успеха, иногда превышающих 70%. Таким образом, модель может быть полезным инструментом для игроков, чтобы избежать субъективных ставок, иногда не связанных с данными. Кроме того, модель предлагает анализ и прогнозирование лиг, чрезвычайно интересных для игроков, но часто не учитываемых. Таким образом, машинное обучение оказалось полезным инструментом для прогнозирования голов в футболе. Тем не менее, многие аспекты этой модели сомнительны и могут быть улучшены, например, собранные данные, выбранные аргументы, реализованный алгоритм машинного обучения и т. д. Машинное обучение и искусственный интеллект по-прежнему приготовили много сюрпризов для спортивных прогнозов.

6 ссылок

Беррар Д., Лопес П. и Дубицки В. (2019). Включение знаний предметной области в машинное обучение для прогнозирования результатов футбола. Машинное обучение, 108(1), 97–126. https://doi.org/10.1007/s10994-018-5747-8

Константину, AC, и Мэри, Q. (2019). Долорес: Модель, которая предсказывает результаты футбольных матчей со всего мира. Январь. https://doi.org/10.1007/s10994-018-5703-7

Дубицкий В., Лопес П., Дэвис Дж. и Беррар Д. (2019). Открытая международная футбольная база данных для машинного обучения. Машинное обучение, 108(1), 9–28. https://doi.org/10.1007/s10994-018-5726-0

Даннинг, Дж. Х. (2014). Выводы. В экономическом анализе и многонациональном предприятии. https://doi.org/10.4324/9781315824000-21

Herman CP, Polivy J. Нормативные влияния на потребление пищи. Физиол Поведение. 2005 г., 15 декабря; 86 (5): 762–72. doi: 10.1016/j.physbeh.2005.08.064. Epub 2005, 21 октября. PMID: 16243366.

Джордан, М.И., и Митчелл, Т.М. (2015). Наука-ML-2015. 349(6245).

Кумар, Г. (2014). Машинное обучение для футбольной аналитики. май. https://doi.org/10.13140/RG.2.1.4628.3761

Макмиллен, Дж. (Ред.). (2005). Культуры азартных игр: исследования по истории и интерпретации. Рутледж.

Футболвиста. URL ставок на футбол https://www.soccervista.com/

Футболвиста. URL ставок на футбол https://www.soccervista.com/soccer_leagues_ordered_by_number_of_goals.php

Юнибет. URL https://www.unibet.fr/pari-sportif-poker

Земекис, Р. (директор). (1989). Назад в будущее, часть 2 [Фильм]. Амблин Развлечения.

7 Приложение

Приложение А. Часть кода, используемая для очистки и сохранения данных в базе данных.

Приложение B. Моделирование расчета ожидаемых голов

Например, предположим, что Неаполь стоит лицом к Риму. Итак, Неаполь — команда хозяев (HT), а Рим — команда гостей (AT).

Вот предыдущие игры каждой команды с начала сезона:

Таким образом, мы можем рассчитать силу атаки и защиты каждой команды следующим образом:

Что касается Неаполя, мы смотрим только на домашние игры и наоборот на Рим. Затем мы вычисляем AS и DS лиги, принимая во внимание все игры.

Затем мы вычисляем ожидаемый гол каждой команды:

Наконец, применим закон Пуассона:

В заключение, для этой конкретной игры относительно предыдущих результатов есть 71,40%, что обе команды забьют в соответствии с законом Пуассона.

Приложение C. Применение закона Пуассона

Допустим, вулкан Питон-де-ла-Фурнез извергался 2 раза в 2018 году, 0 раз в 2019 году и 3 раза в 2020 году. Среднее значение равно 1,67, и, применив яд, мы можем оценить количество извержений в 2021 году.

Так, в нашем случае 19% за отсутствие извержений в 2021 году, 31% за одно извержение, 26% за два извержения и т.д.

Приложение D — Процесс машинного обучения в RapidMiner.