Станет ли 2020 год годом, когда «Лацио» сломает гегемонию «Ювентуса»? Сможет ли «Ливерпуль» прервать 30-летнюю серию без побед в Премьер-лиге? Будет ли преимущество «Барселоны» в два очка достаточным, чтобы доставить трофей Ла Лиги на «Камп Ноу», или это будет год, когда мадридисты выиграют свой первый чемпионский титул в эпоху после Криштиану Роналду?

2020 год был нетипичным из-за пандемии Covid-19, которая заразила более 6 миллионов человек во всем мире (до 3 июня 2020 года). Блокировка повлияла на деятельность всех видов, и футбольные лиги не стали исключением: все страны Европы, кроме одной (Беларуси), прерывали национальные лиги, чтобы выполнить рекомендации OMS.

В то время как несколько лиг пытаются адаптироваться к новой реальности, завершая сезон за закрытыми дверями, многие уже были досрочно завершены национальными правительствами (например, Франция и Нидерланды). В любом случае возникает несколько вопросов для лиг, которые уже отменены или которые не смогут завершить все матчи:

  • Кого следует короновать как чемпиона лиги?
  • Какие команды должны выйти в Лигу чемпионов в следующем сезоне?
  • Какие команды должны быть понижены?

Методы определения окончательного положения бывают разных форм и размеров, например, (1) принятие текущего положения (на момент прерывания лиги) или (2) принятие места в конце первого раунда. Хотя у этих методов есть свои преимущества, они далеко не единодушны, так как не учитывают трудности, с которыми каждая команда столкнется в оставшихся матчах сезона.

Сначала мы решили протестировать пять простых методов, охватывающих два разных подхода: (1) определение финальной таблицы как копии предыдущих моментов в прошлом (например, момент прерывания, конец первого раунда) или (2) ) предсказание исхода каждой оставшейся игры с использованием основных правил (например, команда хозяев всегда побеждает, ведущая команда всегда побеждает). Чтобы проанализировать точность этих методов, мы применили их к последним трем сезонам (имитируя перерыв в этом сезоне), а затем сравнили результаты с реальным итоговым положением, учитывая шесть высших европейских лиг (Премьер-лига, Ла Лига, Бундеслига, Серия А, Лига 1 и Примейра Лига).

Исторически сложилось так, что один из простых методов работает лучше остальных: рассмотрение турнирной таблицы непосредственно перед перерывом. Но есть ли более изощренный и, в конечном счете, лучший способ предсказать финальную турнирную таблицу лиги? Или даже получить более подробные прогнозы, например, какие команды будут претендовать на участие в Лиге чемпионов в следующем году?

Расширенные аналитические методы, особенно прогнозные модели, могут помочь решить эту загадку. Хотя подобные приемы уже стали основой таких видов спорта, как бейсбол и баскетбол, в футболе они применяются реже.

Чтобы сломать эту тенденцию, мы разработали современную модель машинного обучения (МО), которая распознает закономерности в прошлых данных и точно предсказывает будущие результаты. Наша модель учитывалась на данных реальных матчей с сезона 2007/2008 по сезон 2015/2016. Мы рассмотрели около 100 переменных в качестве предикторов матча, таких как предыдущий рейтинг обеих команд, их сравнительный импульс (победная или проигрышная серия) и исторические результаты личных встреч. Модель объединяет всю собранную информацию (для уже сыгранных матчей) для прогнозирования исхода данного будущего матча, что позволяет циклу моделирования, имитирующему заключительные этапы сезона, прогнозировать итоговое положение лиги.

Изучив последние три сезона, чтобы сравнить точность модели машинного обучения с результатами самого эффективного простого метода, мы смогли подтвердить, что прогностическая аналитика может быть настоящим подспорьем в поиске ответов на сложные проблемы прогнозирования.

В этом случае более простые методы могут обеспечить прозрачный и эффективный способ прогнозирования агрегированных результатов, таких как доступ к лиге чемпионов (поскольку для высших лиг не имеет значения, финиширует ли данная команда на первом или втором месте). Тем не менее, при попытке получить более детализированные ответы, например, какая команда станет чемпионом, комбинация алгоритма машинного обучения с симулятором может дать более точные ответы.

Если бы пандемия Covid-19 не нарушила текущий сезон, модель ML предполагает, что Барселона, Бавария и Ювентус стали бы коронованными чемпионами, помимо очевидных побед Ливерпуля и ПСЖ. Из шести высших европейских лиг конкуренция была более жесткой в ​​высшем дивизионе Португалии, где и "Порту", и "Бенфика" имели явные шансы на победу. Не исказит ли пандемия ожидаемый итоговый результат, сломив динамику сезона и сократив преимущество домашнего поля?

Учитывая предсказательную силу продвинутой аналитики, теперь можно задаться вопросом, изменил бы Гэри Линекер свое мифическое высказывание на: «Футбол — простая игра. Двадцать два человека гоняют мяч в течение 90 минут, и модель машинного обучения может предсказать, какая команда победит».

Подробнее о работе LTPlabs здесь.