Все внимание приковано к долгожданному одномесячному зрелищу под названием чемпионат мира по футболу. Команды уже прибыли в Россию (страну-хозяйку Чемпионата мира по футболу FIFA 2018), места проведения готовы, все ждут зрелищного турнира. Тем временем букмекеры, футбольные эксперты, бывшие футболисты и все остальные пытаются предсказать, кто выиграет драгоценный кубок на этот раз. Мы видели в прошлом шумиху вокруг чемпионата мира по футболу. привнес много интересных и новаторских способов предсказания результатов и победителя, в том числе Осьминога Пола - знаменитого осьминога, который предположительно использовался для предсказания результатов футбольных матчей ассоциации. Его точные прогнозы на чемпионате мира 2010 привлекли к нему внимание всего мира и окрестили его животным оракулом.

С другой стороны, ученые пытались разместить свои прогнозы на основе данных и научных методов. Недавно исследователи из Технического университета Дортмунда и Гентского университета выпустили свой метод случайных лесов для прогнозирования результатов в мире. Чашка. Они сравнивают три разные модели: модели регрессии Пуассона, случайные леса и методы ранжирования.

Данные

Весь подход основан на данных прошлых чемпионатов мира с 2002 по 2014 год. Исследователи построили набор данных, содержащий данные о командах и результатах четырех предыдущих чемпионатов мира. Набор данных содержит переменные, описывающие команды, разделенные на 5 групп: экономические факторы, спортивные факторы, домашнее преимущество, структура команды и факторы тренера команды. Идея состоит в том, чтобы использовать 16 переменных для моделирования предстоящих игр и прогнозирования счета, который представляет собой переменную ответа. Фактически, они используют количество забитых голов в качестве переменной ответа и таким образом реструктурируют набор данных (количество забитых голов, когда команда A играет против команды B в этих обстоятельствах - другие переменные, представляющие другие факторы). В таблице ниже представлены данные, структурированные таким образом.

Факторы

Ключом к успешному моделированию и предсказательной способности является правильный выбор прогнозных переменных, то есть факторов, которые потенциально влияют на результаты игр (хотя все мы знаем, что футбольный матч трудно предсказать). Как упоминалось ранее, авторы делят факторы, которые они идентифицировали и о которых собирали данные, на 5 групп.

Экономические факторы:
- ВВП на душу населения (Валовой внутренний продукт на момент чемпионата мира)
- Население (Численность населения страны)

Спортивные факторы:
- вероятность ODDSET (букмекерские коэффициенты от немецкого государственного букмекерского агентства)
- Рейтинг ФИФА ( рейтинг страны согласно рейтинговой системе ФИФА)

Преимущество дома:
- Хост (независимо от того, является ли страна страной пребывания)
- Континент (Кодирование, если страна находится на том же континенте, что и принимающая страна)
- Конфедерация (Конфедерация, к которой она принадлежит)

Структура команды:
- Максимальное количество товарищей по команде (максимальное количество товарищей по команде, играющих вместе в клубе)
- Средний возраст (Средний возраст игроков)
- Количество игроков Лиги чемпионов / Лиги Европы
- Количество игроков за рубежом

Тренер команды:
- Возраст
- Срок полномочий (Срок полномочий)
- Национальность

Метод

Случайный лес

В своей работе исследователи используют случайный лес, используя ранее определенные 16 переменных в качестве предикторов и количество целей в качестве переменной ответа. Чтобы предотвратить переоснащение обучающих данных, они строят деревья в случайном лесу, который нужно отсечь, и каждый листовой узел, чтобы он соответствовал распределению переменной ответа - количеству целей в форме простой коробчатой ​​диаграммы.

Перед запуском алгоритма построения случайного леса обычным способом они проводят анализ важности переменных, чтобы определить вклад каждой переменной в прогноз или фактический результат. Чтобы получить график переменной важности, они применяют подход на основе перестановок к деревьям в случайном лесу. Делая это, они в конечном итоге обнаруживают, что игроки Rank, Oddset и CL являются наиболее важными переменными, обладающими наибольшей предсказательной силой. Гистограмма показывает ранжирование переменных.

Регресс

Подобно подходу случайного леса, авторы используют регрессию Лассо для прогнозирования результатов, в то же время применяя выбор переменных. Они определяют метрику расстояния или разницу между значениями переменных-предикторов и пытаются предсказать количество голов за матч: количество забитых голов каждой командой.

Методы ранжирования

Более того, исследователи изучают модель Пуассона, чтобы получить рейтинг команд, отражающий текущие возможности команды. Здесь они используют рейтинг ФИФА, чтобы определить важность матча, уделяя большее внимание недавним матчам.

Прогнозы

В конце концов, они объединяют все три ранее упомянутых метода, используя общую процедуру:

1. Сформируйте набор тренировочных данных, содержащий три из четырех чемпионатов мира.

2. Подгоните каждый из методов к обучающим данным.

3. Прогнозируйте оставшийся чемпионат мира по футболу, используя каждый из методов прогнозирования.

4. Повторите шаги 1–3 так, чтобы каждый чемпионат мира был пропущенным.

5. Сравните прогнозируемые и реальные результаты для всех методов прогнозирования.

Этот метод исключения по одному гарантирует, что каждое совпадение набора данных когда-то является частью тестового набора. Сравнение всех трех методов приведено в таблицах, а также сравнение с результатами букмекерских контор.

Наконец, поскольку все хотят знать победителя, случайный прогноз для леса: Испания! Этот метод немного отдает предпочтение Испании перед действующим чемпионом Германии и Бразилии. Исследователи запускают моделирование и дают прогнозы результатов группового этапа, индивидуальных матчей на этапе плей-офф, а также вероятности выхода каждой команды на некоторые этапы чемпионата мира по футболу.

P.S. Поскольку вчера испанский тренер был уволен, похоже, Германия должна быть на первом месте.

Выполнив 100 000 симуляций, они составят наиболее вероятный курс турнира. По наиболее вероятному ходу турнира, вместо Испании Кубок мира выиграет сборная Германии. Симуляция предсказывает финал между Бразилией и Германией, как показано на рисунке ниже.

Датчанин Митрев