Кто выиграет ЧМ-2018? — Модельное мышление

Такие прогнозы экспертов есть в The Telegraph или в USA Today. В большинстве этих прогнозов используется команда экспертов, которые следят за игрой и командами по всему миру и понимают динамику команд и другие мелкие детали.

Выбор машинного обучения/ИИ

Это вторая категория и более интересная для нас. Здесь многие авторитетные учреждения разработали модели для прогнозирования результатов.

Goldman Sachs использует модель ИИ, которая провела более 2 000 000 (2 миллионов) симуляций, чтобы получить окончательный результат.

MIT Review опубликовал прогноз, в котором использовался алгоритм случайного поиска в лесу, который брал другие прогнозы в качестве входных данных для запуска симуляций.

Если вы думаете о запуске собственного прогноза, на Git Hub есть готовая модель. Единственное, что вам нужно, — это собрать некоторые данные, которые, по вашему мнению, будут важны для прогнозирования результата, и использовать их для обучения модели.

ВЫБОР — БРАЗИЛИЯ

Было интересно увидеть, что, хотя было так много подходов, конечным результатом в большинстве случаев была Бразилия. Большинство экспертов/моделей выбрали Бразилию в качестве возможного победителя.

Интересной частью этого результата было то, что никакие два предсказания не имели одинаковый путь к конечному результату, но большинство из них пришли к одному и тому же выводу.

Это сходство результатов можно объяснить двумя проблемами:

Смещение подтверждения. Большинство моделей при случайном запуске выдают случайный результат. Каждый достойный разработчик моделей знает, что в своей жизни они запускали модель, которая давала результат, показывающий поведение, противоположное ожидаемому. В это время мы обычно возвращались к данным, которые передавались с помощью какой-либо техники, и пытались заставить их дать ожидаемый результат. То же самое и с экспертами.
Смещение корреляции: из-за недавней формы лучших бразильских игроков как отдельных лиц в разных командах, большинство моделей предполагают, что они могут отлично играть вместе как команда. Некоторые предсказывают, что они будут даже лучше, чем сумма частей. Это называется положительной корреляцией. Хотя это может быть правдой, прошлые события показали нам, что это может быть не так, и два звездных игрока вместе могут не соответствовать некоторым частям, что может привести к снижению производительности другого игрока. Это называется отрицательной корреляцией. Хотя до турнира трудно что-либо сказать об этой корреляции, большинство моделей предполагают, что она будет положительной.

Как сделать хороший прогноз

Независимо от того, выбираете ли вы ИИ или машинное обучение на основе случайного леса, старая пословица Мусор на входе = Мусор на выходе всегда верна при любом подходе к моделированию. Поэтому, если вы хотите создать хорошую или реальную модель прогнозирования, вам нужны хорошие и чистые данные. Когда у вас есть чистые данные, вы можете попробовать разные подходы к моделированию и создать различные модели, чтобы увидеть, что работает, а что нет. Но хорошей отправной точкой всегда являются хорошие данные.

Что такое хорошие чистые данные

Это та часть, где все начинает становиться туманным. Хорошие чистые данные — это то, что решает разработчик моделей, и это решение определяет или разрушает модель (как мы указывали ранее при обработке данных). Хорошими данными могут быть отдельные записи в различных командах. Ниже приведен небольшой список, который, как всем известно, необходимо собрать, чтобы предсказать результат:

Индивидуальные прошлые рекорды производительности
Командные прошлые рекорды производительности

Если вы думаете о прогнозировании результата, вы можете разумно предположить, что если вы начнете с этих двух наборов данных, у вас должен быть хороший результат. Но если это так, то почему большинство моделей предлагают другой путь? Ответ снова в старой пословице: «Дьявол кроется в деталях».

Начнем с отдельных прошлых выступлений. Существует множество переменных, которые могут повлиять на то, какие данные собираются для этой части. Некоторые примеры

Какой отрезок времени мы должны рассматривать прошлые показатели? 2 года, 5 лет?
Какое выступление на турнире я должен учитывать (уровень клуба, национальный уровень, местный спортивный уровень)
Как мне общаться с игроками с разным опытом
Производительность большинства игроков со временем ухудшается из-за сплайнов в разные возрастные периоды, должен ли я использовать это как переменную?
Если игрок мало играл в международные виды спорта, как мне его смоделировать?
Играл ли игрок с той же командой раньше? если да, то производительность была другой?
Играл ли игрок в России раньше, если да, то как выступление?
Как матчи отдельных команд влияют на производительность игроков?

Этот список, хотя и хорош, не является окончательным. Но вам нужно ответить на некоторые, если не на все вопросы, если вы думаете о создании хорошей модели.

Если вы берете командную производительность из-за характера командного спорта, в игру также вступают динамика команды и динамика тренерской работы. Например, недавнее увольнение испанского тренера может оказать огромное влияние на результаты команды, но это трудно предсказать на основе какого-либо прошлого опыта (модели или эксперта).

Вывод. Никакая модель не может предсказать идеальный результат, важны данные и подход.

Если после прочтения всего этого вы чувствуете себя потерянным или разочарованным, не теряйте надежды. Во всем этом шуме все еще есть способы сделать выученный прогноз, который может дать вам преимущество над вашими конкурентами. Потребность часа - правильный подход.

Поймите результат, который вы пытаетесь предсказать
Попытайтесь проанализировать факторы, которые могут повлиять на результат (этот шаг можно улучшить, получив как можно больше информации о результате)
Проанализируйте, есть ли какие-либо внешние факторы проблемы (например, увольнение тренера в данном случае), которые могут повлиять на результат.
После того, как вы соберете все факторы, запустите алгоритм корреляции, чтобы увидеть, есть ли конкурирующие факторы, которые могут исказить ваш результат. Если да, разделите их
Нормировать факторы
Запустите модель
Проанализируйте результаты. Если вы довольны результатом, если нет, повторите шаги 2–6.

Приятного просмотра футбола и вперед, в Бразилию.

Первоначально опубликовано на Croudify.