Когда я публикую эту статью, до летних Олимпийских игр 2020 (2021?) осталось всего несколько дней. Величайшее спортивное событие в мире — это долгожданное наслаждение для всех вокруг, где мечты разбиваются и исполняются.
Таблица медалей, обычно рассматриваемая как общий результат Олимпийских игр, настолько важна, что часто используется в качестве политического инструмента. Гитлер воспринял это как прекрасную возможность продемонстрировать арийское превосходство (спасибо, Джесси Оуэнс); СССР использовал игры, чтобы проиллюстрировать, как коммунизм может конкурировать, а часто и побеждать капитализм; и когда Китай сделал то, что казалось невозможным, и свергнул США в Пекине в 2008 году, всем стало ясно, что установился новый мировой порядок.
Поскольку трудно уследить за всеми соревнованиями, есть любопытство, как будет выглядеть таблица медалей в конце игры. Здесь я покажу, как я создал модель для прогнозирования общего количества медалей каждой страны (не золота/серебра/бронзы, а их суммы), и вы увидите мои прогнозы для следующего выпуска игр.
Прогнозы и результаты Рио-2016
В таблице ниже вы можете найти мои прогнозы для Рио-2016 (используя данные до игр в Лондоне 2012) и их сравнение с фактическим количеством медалей в сочетании с прогнозами двух известных компаний для 20 лучших стран.
Моей выбранной моделью здесь является линейный регрессор, имеющий всего 3 функции (общее количество медалей для каждой из двух последних олимпийских игр и флаг для определения текущей принимающей страны). Модель достигла r2 0,88; со среднеквадратичной ошибкой 37 (что дает среднюю ошибку 6 медалей).
И Gracenote, и Goldman Sachs сделали индивидуальные прогнозы для каждого вида спорта, а затем эти прогнозы были объединены в общую таблицу. Оба использовали еще несколько функций, включая индивидуальные результаты, ведущие к Олимпийским играм, а также экономические и демографические переменные (только Goldman).
На мой взгляд, все 3 модели довольно неплохо предсказывают количество медалей. Goldman Sach, кажется, лучше, поскольку он лучше всего предсказывает половину таблицы. Моя модель становится лучше только для 3 стран.
Однако, если мы удалим экономические факторы (таким образом, сравнивая только мою линейную модель с моделью Gracenote), я на самом деле выступил немного лучше (достиг лучшего прогноза для 11 из 20 стран с наибольшим количеством медалей).
К сожалению, моей ахиллесовой пятой стало предсказание Бразилии. Моя модель совершенно сошла с ума и не попала в цель на целых 179%. Это произошло из-за очень разочаровывающего прироста страны от проведения игр (просто посмотрите на недавний рост в Великобритании и Китае, играющих дома).
Составление прогнозов для Токио
Поскольку я на самом деле обучил 4 разные регрессионные модели (подробности ниже), а моя выбранная модель была неудачной при прогнозировании общего количества принимающей страны, я решил использовать комбинированную модель для прогнозов на 2020 год. Общее количество Японии было получено из случайного лесного регрессора (который предсказал бы 22 медали для BRA в 2016 году), а другие числа были рассчитаны с помощью той же линейной модели, которая использовалась для предсказаний выше. Данные Gracenote (обновленные за неделю до публикации) представлены для сравнения.
Особенности:
- В моей модели GBR сохраняет за собой третье место в таблице медалей с количеством, которое выглядит как превышение. Gracenote предсказывает гораздо более серьезную потерю производительности и ставит их на восьмое место, что, с другой стороны, кажется мне немного резким.
- С Россией немного сложнее: некоторые спортсмены выбыли из игры из-за допингового скандала в стране. Моя модель полностью игнорирует это, таким образом, предсказывая повторную производительность для них. Вместо этого Gracenote делает ставку на восстановление после 2016 года (апогей скандала), что кажется вероятным.
- Прогнозы JPN равны! Престижность для моей комбинированной модели.
Разработка проблемы
Мне кажется очевидным, что лучший подход к определению олимпийских медалей состоит в том, чтобы анализировать каждый вид спорта отдельно от других, сосредоточив внимание на событиях, близких к олимпийским играм (с некоторыми корректировками, такими как придание большего веса чемпионатам мира).
Я, однако, не мог двигаться вперед с этим подходом. Мне не хватает более глубокого понимания нынешней картины спортсменов во многих олимпийских видах спорта. Кроме того, такого рода данные не так легко доступны, и у меня был строгий график, если я хотел, чтобы это было выпущено до начала игр (что я и сделал).
Что у меня есть, так это глубокое знание того, как работает спорт в целом. Я знаю, что 4 года — это небольшой срок для полной смены сценария, поэтому ожидается, что большинство обладателей медалей повторят свои выступления в следующем сезоне. Я также знаю, что инфраструктура и традиции очень важны для успеха (поэтому США всегда на вершине рейтинга медалей). И я также знаю, что есть какое-то преимущество на своем поле как за счет мотивации, так и за счет роста местных инвестиций в годы, предшествовавшие играм.
Итак, мое предложение состояло в том, чтобы смоделировать таблицу медалей страны на основе результатов двух последних олимпийских игр, общего количества медалей, доступных в каждой игре (чем больше медалей для распределений, тем больше медалей), и того, принимала ли страна последние игры. хостинг текущего или будет принимать следующий.
Таблица медалей 2016 года была проведена в качестве проверочного набора данных, чтобы проверить производительность модели с помощью невидимых данных, которые позже сгенерируют мои прогнозы на 2016 год в начале этой статьи.
Выбор модели
Итак, я столкнулся с проблемой регрессии. Я решил протестировать 4 модели (линейная регрессия, случайный лес, SVR и XGBoost). После каждого запуска модели я оценивал важность функций, чтобы определить, можно ли исключить некоторые переменные. Например, линейная модель дала следующие коэффициенты:
Итак, я знаю, что TotalMedals практически не влияет на мой результат. Вклад HomeAfter также очень мал, поэтому я вырезал обе эти функции из линейной модели. Я также ожидал, что HomeBefore применит положительный эффект вместо отрицательного, поэтому я решил удалить и эту переменную, которая, к моей радости, улучшила производительность модели.
Тот же процесс был выполнен для других моделей с разными результатами (например, модель случайного леса сохранила функцию TotalMedals). Кроме того, для остальных трех моделей был выполнен поиск по сетке для повышения производительности. Наиболее резкое изменение произошло в модели SVR, которая увеличилась со смехотворного r2, равного 0,27, до 0,79 с оптимизированными гиперпараметрами (C=100, гамма=масштаб и ядро=RBF).
В приведенной выше таблице содержится оценка перекрестной проверки для каждой модели (уже оптимизированной). SVR немного лучше, но особой разницы между ними нет. Поскольку я делаю это для развлечения, а наш набор данных очень маленький, я решил перенести все четыре модели на этап проверки.
Теперь мы обучаем алгоритмы на всех данных до 2016 года и пытаемся предсказать итоговую таблицу медалей года. Мы получили выдающиеся результаты, представленные в таблице ниже.
Опять же, особой разницы нет, на этот раз регрессор случайного леса работает немного лучше. Таким образом, моя последняя выбранная модель была гибридом между линейным регрессором из-за его простоты, небольшого количества признаков и качественных результатов (больше ошибок в трудно предсказуемых крупных странах, меньше ошибок в более мелких); и регрессор случайного леса, только для прогнозов страны проживания. Таблица результатов для 20 лучших стран в таблице медалей 2016 года уже была представлена в начале.
Так вот. Месяц работы и всего несколько функций позволил мне создать предсказатель олимпийских медалей немного хуже, но вполне сравнимый с некоторыми высоко оцененными эталонными тестами. Увидимся после игр, когда мы увидим, насколько хорошо я выступил.
Ресурсы:
Таблицы медалей: Википедия
Прогнозы Gracenote 2016: https://d1rkab7tlqy5f1.cloudfront.net/EWI/Samenwerken/DelftDataScience/News%20%26%20Events/Presentation%20Data%20Science%20%26%20Sports/7._Gleave__S._2.pdf
Прогнозы Gracenote 2020: https://www.gracenote.com/virtual-medal-table/
Прогнозы Goldman Sachs на 2016 год: https://s03.s3c.es/imag/doc/2016-08-01/olympic-games-report-goldman-sachs.pdf