Ройс Тео, управляющий директор и руководитель группы по управлению данными в DBS Bank

Есть свои предпочтения у экономистов и аналитиков, у попугаев и осьминогов тоже. Каждый раз, когда приближается чемпионат мира, многие пытаются предсказать победителя. В этом году в DBS мы тоже делаем то же самое, хотя и по-другому.

Мы запустили в банке задачу по науке о данных, чтобы предсказать победителя чемпионата мира по футболу. Проще говоря, нашим коллегам нужно будет использовать данные для прогнозирования чемпиона, первого и второго призеров, а также результатов финального матча и плей-офф за третье место.

Мы собрали и загрузили необработанные и исторические данные о чемпионатах мира (начиная с 1930-х годов!) В базу данных, чтобы у участников был готовый ресурс данных для анализа. Первоначально мы планировали, чтобы в этой не столь серьезной задаче принимали участие только специалисты по данным, но она распространилась так быстро, что вскоре мы стали получать сотни заявок. Таким образом, мы открыли его для всех, кто работает в DBS, с уловкой, которую вы не можете «угадать», и ваш прогноз должен быть подкреплен подходом, основанным на данных, каким бы сложным или простым он ни был. Это был отличный способ научить людей аналитике данных на безумном чемпионате мира по футболу!

У нас было множество подходов - от алгоритмов глубокого обучения и статистических моделей до немного нетрадиционных и уникальных методов.

Окончательный подсчет: 2200 участников из 14 стран, 30% участников - женщины. Крупные неудачи (Бразилия, Германия, Италия) выбили из строя значительную часть претендентов, и осталось только 28 участников.

Интересно, что по мере того, как мы приближаемся к последним раундам, женщины составляют 40% оставшихся команд.

С одной стороны, у нас есть команды, которые довели до крайности «управляемость данными», собирая результаты матчей за годы, статистику производительности игроков и применяя алгоритмы глубокого обучения, начиная от генетического машинного обучения (GBML), CNN высокого измерения и обучения с подкреплением для прогнозирования итоги чемпионата мира по футболу в этом году.

У всех этих методов есть свои преимущества, например, подход HD-CNN (CNN высокой размерности) сохраняет исторические результаты сопоставления в виде тензора, фиксируя различные измерения, такие как тип соответствия (групповое совпадение, окончательное совпадение, дружеское совпадение, и т. д.), географическое положение команды (европейская команда, азиатская команда и т. д.), место проведения матча и т. д. На основании этого модель CNN обучается фиксировать взаимосвязь любой пары команд, по которой можно предсказать исход матча.

Мы также использовали несколько нетрадиционные подходы, которые используют систему рейтинга ELO - методологию, изначально изобретенную для оценки уровня навыков игрока в шахматах и, в конечном итоге, для прогнозирования исхода матча. Один из наших коллег адаптировал такой подход для прогнозирования исхода чемпионата мира по футболу.

На другом конце спектра одна из полученных нами записей использовала карты Таро для «предсказания» победителя! Хотя можно с уверенностью предположить, что это может быть немного натянуто в соответствии с нашими критериями «управляемости данными», еще неизвестно, превзойдут ли карты Таро экспертов или глубокое обучение!

Наконец, чтобы ответить на вопрос, который мы задали в названии, согласно нашим оставшимся командам, это будет Франция!