Следуя своей давней страсти к крикету, а теперь и к Data Science, я вместе с Соумендрой работал над созданием модели, основанной на машинном обучении, для прогнозирования победителя матчей IPL T20.

Сообщество аналитиков крикета, кажется, складывается довольно хорошо, и, похоже, оно вызывает большой энтузиазм. На гребне волны мы строим наши модели, используя общедоступные наборы данных с cricsheet.org (кстати, отличная работа, ребята). Хотя набор данных кажется довольно надежным и надежным, мы столкнулись с некоторыми серьезными проблемами с ним. К сожалению, эти проблемы присутствуют и на сайте c ricinfo.com.

Ниже я опишу проблему более подробно.

Основная проблема заключается в следующем: когда вы сравниваете статистику из пошаговых данных из Cricinfo со статистикой из наборов данных YAML или CSV Cricsheet, обнаруживаются серьезные расхождения. К нашему удивлению, даже собственная статистика Cricinfo (итоговая таблица результатов и т. Д.) Не совпадает с их собственными данными по мячу (но они соответствуют данным Cricsheet). Это заставляет меня задаться вопросом, насколько точны данные почтенного Cricinfo Statsguru, и нужно ли мне сейчас пересмотреть все известные мне мелочи крикета.

Это будет действительно печальный день, когда превосходство Сачина Тендулкара над Брайаном Ларой нельзя будет опровергнуть с помощью его характеристик.

Давайте посмотрим на статистику боулинга Ишанта Шармы с первого в истории матча IPL!

На приведенном выше скриншоте я, Шарма, сделал 3 овера, забил 1 калитку и дал 7 забегов (без границ) с 17 точками из 18, что само по себе непоследовательно. Но раздел комментариев к Ишанту Шарме в Cricinfo рассказывает совершенно другую историю.

Если не считать новичков в редактировании фотографий, в разделе комментариев показано, что я Шарма забил 4 овера, причем 14 чаш были точечными шарами (обновление: я забыл учесть прохождения, так что это, вероятно, должно быть 17 точечных шаров), а также взял 2 калитки!

Мы также проверили наши результаты с данными, загруженными в форматах YAML и CSV из Cricsheet, чтобы быть уверенными. Цифры из Cricsheet (у них есть данные по мячу) соответствуют таблице показателей Cricinfo, а не по данным Cricinfo по мячу (которые с его 4-мя оверрами кажутся наиболее полными).

В целом, в наборе данных есть много несоответствий подобного рода. Я привел здесь только один пример.

Этот пост - попытка донести эти проблемы до критических технологических гигантов, таких как уведомление Cricinfo, чтобы побудить их предоставить более надежные данные таким энтузиастам, как мы. Этот пост также является приглашением ко всем любителям крикета, занимающимся аналитикой данных, собраться вместе и создать сплоченное сообщество аналитиков данных по крикету, чтобы произвести революцию в этом виде спорта.

Это сообщение в блоге является призывом к действию для аналитиков крикета, энтузиастов и сообщества специалистов по науке о данных, чтобы они объединились и преодолели эти проблемы с данными.

По мере того, как мы движемся к обществу, основанному на данных, неизбежно вовлечение все более сложных аналитических и прогнозных моделей в наш самый любимый вид спорта наряду со всеми другими аспектами нашей жизни. И в основе даже самых продвинутых моделей остаются надежные и надежные данные.

До скорого.

(Я хотел бы поблагодарить Соумендра за его редакторский вклад.)