Любой энтузиаст фэнтези-футбола или игрок Football Manager будет знать о поразительном количестве статистических данных, доступных для мужского футбола. Базы данных по мужскому футболу на самом деле настолько обширны, что наборы данных, используемые компьютерными играми, такими как Football Manager, даже использовались в качестве предварительного исследования профессиональными футбольными скаутами — зачем летать через весь мир, чтобы увидеть интересующих игроков? лично, когда вы сможете сначала проверить их, не выходя из домашнего офиса?
К сожалению, женская игра отстает на несколько десятилетий — отчасти из-за 50-летнего запрета на участие женщин в стадионных играх в Великобритании и аналогичных ограничений в других странах мира. Данные не являются исключением из этого дефицита. Набор данных, над которым я работаю для этого блога, может представлять 1328 игроков, но каждый из них отслеживался максимум в 11 матчах… и это был самый полный набор данных, который я смог найти!
Итак, поставив себя на место гипотетического футбольного скаута, как мы можем работать с доступными данными, чтобы добиться положительных результатов для нашего клуба?
Прежде всего: нам нужна команда!
В виде гистограммы мы можем увидеть огромную разницу между лучшими бомбардирами (Барселона) и Лестер Сити WFC. На самом деле это составляет 42 гола для «Барселоны» против всего одного гола для «Лестер Сити».
Очевидно, «Лисицам» нужна наша помощь!
В идеальном мире, как скауты WFC «Лестер Сити», мы могли бы использовать приведенный выше анализ бомбардиров и их клубов, чтобы найти таланты в «Барселоне», но в реальности у нас, вероятно, нет бюджета, чтобы переманить их лучших бомбардиров, поэтому как — вместо этого — мы можем использовать наблюдаемые особенности в игре, чтобы определить голевой потенциал?
Очевидная вещь, на которую следует обратить внимание, — это шансы на попадание в цель, и на изображении ниже представлены лучшие стрелки в наборе данных, а не бомбардиры. Мы уже видим, что у Барселоны нет монополии на возможности!
Если бы я искал более достойную цель, чем лучший бомбардир «Барселоны», я мог бы обратить внимание на более молодых игроков; игроки, которым, возможно, еще есть чему поучиться, и в их карьере еще есть место для значительного развития.
Бенедетта Глионна из Ромы выглядит интересно в этом отношении — с 0 голов, чтобы показать ее 13 ударов по воротам, но всего 23 года.
Однако мы можем выделить и другие черты, наличие которых, казалось бы, предполагает, что цели не за горами…
- Touches_AttPen: касания в штрафной площади атаки.
- Touches_Att3rd:Касание в атакующей трети.
- Расстояние: расстояние
Примечание. Тепловая карта показывает, что касания в зоне атаки сильнее связаны с ударами в створ (и передачами, что мы увидим позже).
Интересно, что расстояние, по-видимому, слегка отрицательно коррелирует, что говорит о том, что наш разведчик должен присматривать за игроками…
- находится в зоне атаки, но делает касания в штрафной
- часто бьет по воротам
- ограничение их движения ключевыми областями — кажется, что слишком много бега по длине поля вредно для забитых голов.
Поскольку наш идеальный игрок оказывает максимальное влияние в штрафной площади, нам нужно передать ему мяч, поэтому давайте подробнее рассмотрим передачи…
Эта тепловая карта показывает самые сильные связи с помощниками в нашем наборе данных:
- KP:ключевые проходы
- SCA: действия по созданию кадра.
- GCA: действия по созданию цели
…но эти характеристики гораздо труднее оценить в скаутинге в реальном времени, чем удары в створ и касания в штрафной площади! Однако, если бы мы могли получить доступ к недавней статистике результативности игрока, могли бы мы использовать полный набор данных для прогнозирования возможных передач, даже если этот игрок на самом деле еще ничего не сделал? сильный>
Короткий ответ: да!
Мы действительно можем предсказать потенциал для передач с разумной степенью точности.
Используя значения для KP, SCA и GCA и их взаимосвязь с Ast, мы можем обучить линейную регрессию модель, а затем сравните эту модель с остальным набором данных, чтобы увидеть, как она работает.
В этом случае я тренировался на 75% очищенного набора данных, что дало точность предсказания 67% для оставшихся 25% данных.
Теперь, 67% ни в коем случае не впечатляющий показатель точности, и, как показано в этой статье, в данных были некоторые заметные недостатки. На мой взгляд, он не охватывал достаточного количества матчей, и было сравнительно мало полей, относящихся к оборонительным характеристикам (отсутствие статистики чистых матчей было заметно как футбольному фанату).
Все это подчеркивает потребность в большем количестве данных в растущей женской игре. На этом этапе мы должны собирать статистику, сопоставимую с мужской игрой, чтобы иметь возможность добиться большего с помощью анализа данных и помочь тем, кто за кулисами, определить тенденции и внести значимые изменения.
Если эта статья пробудила в вас интерес к женскому футболу, почему бы не поискать информацию о вашей местной команде и о том, как вы можете их поддержать.
Пожалуйста, также не стесняйтесь взглянуть на сопутствующий код к этой статье на GitHub.