Когда я публикую эту статью, до летних Олимпийских игр 2020 (2021?) осталось всего несколько дней. Величайшее спортивное событие в мире — это долгожданное наслаждение для всех вокруг, где мечты разбиваются и исполняются.

Таблица медалей, обычно рассматриваемая как общий результат Олимпийских игр, настолько важна, что часто используется в качестве политического инструмента. Гитлер воспринял это как прекрасную возможность продемонстрировать арийское превосходство (спасибо, Джесси Оуэнс); СССР использовал игры, чтобы проиллюстрировать, как коммунизм может конкурировать, а часто и побеждать капитализм; и когда Китай сделал то, что казалось невозможным, и свергнул США в Пекине в 2008 году, всем стало ясно, что установился новый мировой порядок.

Поскольку трудно уследить за всеми соревнованиями, есть любопытство, как будет выглядеть таблица медалей в конце игры. Здесь я покажу, как я создал модель для прогнозирования общего количества медалей каждой страны (не золота/серебра/бронзы, а их суммы), и вы увидите мои прогнозы для следующего выпуска игр.

Прогнозы и результаты Рио-2016

В таблице ниже вы можете найти мои прогнозы для Рио-2016 (используя данные до игр в Лондоне 2012) и их сравнение с фактическим количеством медалей в сочетании с прогнозами двух известных компаний для 20 лучших стран.

Моей выбранной моделью здесь является линейный регрессор, имеющий всего 3 функции (общее количество медалей для каждой из двух последних олимпийских игр и флаг для определения текущей принимающей страны). Модель достигла r2 0,88; со среднеквадратичной ошибкой 37 (что дает среднюю ошибку 6 медалей).

И Gracenote, и Goldman Sachs сделали индивидуальные прогнозы для каждого вида спорта, а затем эти прогнозы были объединены в общую таблицу. Оба использовали еще несколько функций, включая индивидуальные результаты, ведущие к Олимпийским играм, а также экономические и демографические переменные (только Goldman).

На мой взгляд, все 3 модели довольно неплохо предсказывают количество медалей. Goldman Sach, кажется, лучше, поскольку он лучше всего предсказывает половину таблицы. Моя модель становится лучше только для 3 стран.

Однако, если мы удалим экономические факторы (таким образом, сравнивая только мою линейную модель с моделью Gracenote), я на самом деле выступил немного лучше (достиг лучшего прогноза для 11 из 20 стран с наибольшим количеством медалей).

К сожалению, моей ахиллесовой пятой стало предсказание Бразилии. Моя модель совершенно сошла с ума и не попала в цель на целых 179%. Это произошло из-за очень разочаровывающего прироста страны от проведения игр (просто посмотрите на недавний рост в Великобритании и Китае, играющих дома).

Составление прогнозов для Токио

Поскольку я на самом деле обучил 4 разные регрессионные модели (подробности ниже), а моя выбранная модель была неудачной при прогнозировании общего количества принимающей страны, я решил использовать комбинированную модель для прогнозов на 2020 год. Общее количество Японии было получено из случайного лесного регрессора (который предсказал бы 22 медали для BRA в 2016 году), а другие числа были рассчитаны с помощью той же линейной модели, которая использовалась для предсказаний выше. Данные Gracenote (обновленные за неделю до публикации) представлены для сравнения.

Особенности:

  1. В моей модели GBR сохраняет за собой третье место в таблице медалей с количеством, которое выглядит как превышение. Gracenote предсказывает гораздо более серьезную потерю производительности и ставит их на восьмое место, что, с другой стороны, кажется мне немного резким.
  2. С Россией немного сложнее: некоторые спортсмены выбыли из игры из-за допингового скандала в стране. Моя модель полностью игнорирует это, таким образом, предсказывая повторную производительность для них. Вместо этого Gracenote делает ставку на восстановление после 2016 года (апогей скандала), что кажется вероятным.
  3. Прогнозы JPN равны! Престижность для моей комбинированной модели.

Разработка проблемы

Мне кажется очевидным, что лучший подход к определению олимпийских медалей состоит в том, чтобы анализировать каждый вид спорта отдельно от других, сосредоточив внимание на событиях, близких к олимпийским играм (с некоторыми корректировками, такими как придание большего веса чемпионатам мира).

Я, однако, не мог двигаться вперед с этим подходом. Мне не хватает более глубокого понимания нынешней картины спортсменов во многих олимпийских видах спорта. Кроме того, такого рода данные не так легко доступны, и у меня был строгий график, если я хотел, чтобы это было выпущено до начала игр (что я и сделал).

Что у меня есть, так это глубокое знание того, как работает спорт в целом. Я знаю, что 4 года — это небольшой срок для полной смены сценария, поэтому ожидается, что большинство обладателей медалей повторят свои выступления в следующем сезоне. Я также знаю, что инфраструктура и традиции очень важны для успеха (поэтому США всегда на вершине рейтинга медалей). И я также знаю, что есть какое-то преимущество на своем поле как за счет мотивации, так и за счет роста местных инвестиций в годы, предшествовавшие играм.

Итак, мое предложение состояло в том, чтобы смоделировать таблицу медалей страны на основе результатов двух последних олимпийских игр, общего количества медалей, доступных в каждой игре (чем больше медалей для распределений, тем больше медалей), и того, принимала ли страна последние игры. хостинг текущего или будет принимать следующий.

Таблица медалей 2016 года была проведена в качестве проверочного набора данных, чтобы проверить производительность модели с помощью невидимых данных, которые позже сгенерируют мои прогнозы на 2016 год в начале этой статьи.

Выбор модели

Итак, я столкнулся с проблемой регрессии. Я решил протестировать 4 модели (линейная регрессия, случайный лес, SVR и XGBoost). После каждого запуска модели я оценивал важность функций, чтобы определить, можно ли исключить некоторые переменные. Например, линейная модель дала следующие коэффициенты:

Итак, я знаю, что TotalMedals практически не влияет на мой результат. Вклад HomeAfter также очень мал, поэтому я вырезал обе эти функции из линейной модели. Я также ожидал, что HomeBefore применит положительный эффект вместо отрицательного, поэтому я решил удалить и эту переменную, которая, к моей радости, улучшила производительность модели.

Тот же процесс был выполнен для других моделей с разными результатами (например, модель случайного леса сохранила функцию TotalMedals). Кроме того, для остальных трех моделей был выполнен поиск по сетке для повышения производительности. Наиболее резкое изменение произошло в модели SVR, которая увеличилась со смехотворного r2, равного 0,27, до 0,79 с оптимизированными гиперпараметрами (C=100, гамма=масштаб и ядро=RBF).

В приведенной выше таблице содержится оценка перекрестной проверки для каждой модели (уже оптимизированной). SVR немного лучше, но особой разницы между ними нет. Поскольку я делаю это для развлечения, а наш набор данных очень маленький, я решил перенести все четыре модели на этап проверки.

Теперь мы обучаем алгоритмы на всех данных до 2016 года и пытаемся предсказать итоговую таблицу медалей года. Мы получили выдающиеся результаты, представленные в таблице ниже.

Опять же, особой разницы нет, на этот раз регрессор случайного леса работает немного лучше. Таким образом, моя последняя выбранная модель была гибридом между линейным регрессором из-за его простоты, небольшого количества признаков и качественных результатов (больше ошибок в трудно предсказуемых крупных странах, меньше ошибок в более мелких); и регрессор случайного леса, только для прогнозов страны проживания. Таблица результатов для 20 лучших стран в таблице медалей 2016 года уже была представлена ​​в начале.

Так вот. Месяц работы и всего несколько функций позволил мне создать предсказатель олимпийских медалей немного хуже, но вполне сравнимый с некоторыми высоко оцененными эталонными тестами. Увидимся после игр, когда мы увидим, насколько хорошо я выступил.

Ресурсы:

Таблицы медалей: Википедия

Прогнозы Gracenote 2016: https://d1rkab7tlqy5f1.cloudfront.net/EWI/Samenwerken/DelftDataScience/News%20%26%20Events/Presentation%20Data%20Science%20%26%20Sports/7._Gleave__S._2.pdf

Прогнозы Gracenote 2020: https://www.gracenote.com/virtual-medal-table/

Прогнозы Goldman Sachs на 2016 год: https://s03.s3c.es/imag/doc/2016-08-01/olympic-games-report-goldman-sachs.pdf

Мой код: https://github.com/fonseca-carlos/Medals-Predictor