Наука о данных помогает нам извлекать знания или идеи из данных, как структурированных, так и неструктурированных, с использованием научных методов, таких как математические или статистические модели. В последние два десятилетия это была одна из самых популярных областей с появлением всех технологий больших данных. Многие компании используют системы рекомендаций для продвижения своих продуктов/предложений в соответствии с интересами пользователей, такие как Amazon, Netflix, Google Play. Многие другие приложения, такие как распознавание изображений, игры или планирование маршрутов авиакомпаний, также используют большие данные и науку о данных.

Спорт — еще одна область, в которой наука о данных широко используется для улучшения стратегий и прогнозирования результатов матчей. Крикет — это вид спорта, в котором машинное обучение может охватить довольно большое поле. Это может иметь большое значение для предложения оптимальных стратегий для команды, чтобы выиграть матч или франшизы, чтобы сделать ставку на ценного игрока.

В Международный совет по крикету (ICC) входят 10 постоянных членов, 57 аффилированных стран-членов и 38 ассоциированных стран-членов, что в сумме составляет 105 стран-членов. Мы не можем себе представить объем данных, которые будут генерироваться каждый день в течение 365 дней с информацией о каждом мяче 5 31 253 игроков в крикет в почти 5 40 290 матчах по крикету на 11 960 площадках для игры в крикет по всему миру. Обслуживание базы данных уже давно присутствует в крикете, и в прошлом также использовался простой анализ. У нас есть счет каждого матча со всеми деталями, которые использовались для создания статистики, такой как лучший бомбардир, лучший игрок в калитку, лучший средний результат / боулинг, наибольшее количество столетий в выездных матчах, лучший процент ударов, самый высокий пробег бомбардир в успешных погонях и многое другое. В последние годы глубина анализа вышла на совершенно новый уровень.

Наиболее популярным применением математики в крикете является система Дакворта-Льюиса (D/L). Этот метод, детище Фрэнка Дакворта и Тони Льюиса, помогает сбрасывать цели в матчах по крикету с ограниченным количеством оверов, пострадавших от дождя. Метод D / L широко используется во всех международных матчах с ограниченным количеством оверов для прогнозирования целевого счета. Это статистическая формула, позволяющая установить справедливую цель для команды, отбивающей второй, на основе очков, набранных первой командой. При этом учитываются потерянные калитки преследующей стороны и оставшиеся оверы. Прогнозируемый паритетный счет рассчитывается для каждого мяча и пропорционален проценту комбинации калиток в руке и оставшихся оверов. Это простая математика и имеет много недостатков. Этот метод кажется более выгодным для команды, отбивающей второй. Он не учитывает изменения доли иннингов, для которых действуют ограничения поля, по сравнению с завершенными иннингами. В. Джаядеван, инженер из Кералы, также создал математическую модель, альтернативную методу D/L, но она не стала популярной из-за определенных ограничений.

Алгоритмы машинного обучения можно использовать для выявления сложных, но значимых шаблонов в данных, что затем позволяет нам прогнозировать или классифицировать будущие экземпляры или события. Мы можем использовать данные из первых иннингов, такие как количество выполненных подач, количество оставшихся калиток, раны, набранные за каждую подачу, и партнерство для последней калитки, и сравнить это с общим количеством набранных ранов. Методы машинного обучения, такие как SVM, Neural Network, Random Forest, можно использовать для создания модели на основе исторических данных о первых иннингах с учетом команд, играющих в матче. Эту же модель можно использовать для прогнозирования второго иннинга, прерванного дождем. Это даст более точный прогноз, чем метод D/L, поскольку мы используем много исторических данных и все соответствующие переменные.

Еще одним приложением является WASP (Winning and Scoring Prediction), в котором используются методы машинного обучения, которые предсказывают окончательный счет в первом иннинге и оценивают вероятность победы команды-преследователя во втором иннинге. Однако на данный момент эта технология использовалась в очень немногих турнирах. WASP был создан Скоттом Брукером в рамках его докторской диссертации. исследований вместе со своим научным руководителем Симусом Хоганом в Кентерберийском университете. Новозеландское Sky TV впервые представило WASP во время освещения своего внутреннего крикета с ограниченным количеством оверов. Модели основаны на базе данных всех неукороченных ODI и 20–20 игр, сыгранных между восьмью ведущими странами с конца 2006 г. (чуть больше назад для 20–20 игр). Модель первого иннинга оценивает дополнительные раны, которые могут быть засчитаны, в зависимости от количества оставшихся мячей и калиток. Модель второго иннинга оценивает вероятность победы как функцию оставшихся шаров и калиток, набранных на данный момент пробежек и целевого результата. Пусть V(b,w) — ожидаемые дополнительные раны для оставшихся иннингов, когда было выброшено b (законных) шаров и w калиток было потеряно, и пусть r(b,w) и p(b,w) равны , соответственно, предполагаемые ожидаемые пробеги и вероятность калитки на следующем шаре в этой ситуации. Уравнение –

V(b,w) =r(b,w) +p(b,w) V(b+1,w+1) +(1-p(b,w)))V(b+1,w)

Учитываются такие факторы, как история игр на этом стадионе и условия в тот день (поле, погода и т. д.), а для составления прогнозов используются показатели результативности и вероятности увольнений.

Другими успешными приложениями науки о данных в крикете являются:

  • «ScoreWithData», аналитическая инновация от IBM, предсказала, что игрок в крикет из Южной Африки Имран Тахир будет признан лучшим боулером за 7 часов до финала первой четверти чемпионата мира 2015 года.

Южная Африка выиграла матч благодаря выдающейся игре Тахира.

  • «Insights», интерактивный инструмент анализа крикета, разработанный ESPNCricInfo, представляет собой объединение крикета и аналитики больших данных.
  • На последнем чемпионате мира T20 в 2016 году ESPNCricInfo провела расширенный статистический анализ перед началом каждого матча, а именно. когда Равичандран Ашвин берет 3 калитки, шансы Индии на победу в матче увеличиваются на 40%.

Но применение науки о данных более широко используется в других видах спорта, таких как футбол. Немец

Футбольная ассоциация (DFB) и SAP разработали программную систему Match Insights, которая помогла сборной Германии по футболу выиграть чемпионат мира 2014 года. Билли Бин из «Money Ball» добился успеха, предприняв решительный шаг, отказавшись от традиционных методов скаутинга в пользу подробного анализа статистики. Это позволило ему определить наиболее продуктивных игроков, независимо от всестороннего атлетизма и привлекательной внешности, которых раньше жаждали клубы.

Будущее больших данных и машинного обучения действительно очень яркое в мире крикета. В то время как боулеры кричат ​​«Howzat», пытаясь забить калитки, мы, специалисты по данным, с помощью машинного обучения и больших данных можем задать вопрос: HowStat?

использованная литература

Эта статья написана Суваджит Сеном, старшим бизнес-аналитиком компании Affine.