Любой энтузиаст фэнтези-футбола или игрок Football Manager будет знать о поразительном количестве статистических данных, доступных для мужского футбола. Базы данных по мужскому футболу на самом деле настолько обширны, что наборы данных, используемые компьютерными играми, такими как Football Manager, даже использовались в качестве предварительного исследования профессиональными футбольными скаутами — зачем летать через весь мир, чтобы увидеть интересующих игроков? лично, когда вы сможете сначала проверить их, не выходя из домашнего офиса?

К сожалению, женская игра отстает на несколько десятилетий — отчасти из-за 50-летнего запрета на участие женщин в стадионных играх в Великобритании и аналогичных ограничений в других странах мира. Данные не являются исключением из этого дефицита. Набор данных, над которым я работаю для этого блога, может представлять 1328 игроков, но каждый из них отслеживался максимум в 11 матчах… и это был самый полный набор данных, который я смог найти!

Итак, поставив себя на место гипотетического футбольного скаута, как мы можем работать с доступными данными, чтобы добиться положительных результатов для нашего клуба?

Прежде всего: нам нужна команда!

В виде гистограммы мы можем увидеть огромную разницу между лучшими бомбардирами (Барселона) и Лестер Сити WFC. На самом деле это составляет 42 гола для «Барселоны» против всего одного гола для «Лестер Сити».

Очевидно, «Лисицам» нужна наша помощь!

В идеальном мире, как скауты WFC «Лестер Сити», мы могли бы использовать приведенный выше анализ бомбардиров и их клубов, чтобы найти таланты в «Барселоне», но в реальности у нас, вероятно, нет бюджета, чтобы переманить их лучших бомбардиров, поэтому как — вместо этого — мы можем использовать наблюдаемые особенности в игре, чтобы определить голевой потенциал?

Очевидная вещь, на которую следует обратить внимание, — это шансы на попадание в цель, и на изображении ниже представлены лучшие стрелки в наборе данных, а не бомбардиры. Мы уже видим, что у Барселоны нет монополии на возможности!

Если бы я искал более достойную цель, чем лучший бомбардир «Барселоны», я мог бы обратить внимание на более молодых игроков; игроки, которым, возможно, еще есть чему поучиться, и в их карьере еще есть место для значительного развития.

Бенедетта Глионна из Ромы выглядит интересно в этом отношении — с 0 голов, чтобы показать ее 13 ударов по воротам, но всего 23 года.

Однако мы можем выделить и другие черты, наличие которых, казалось бы, предполагает, что цели не за горами…

  • Touches_AttPen: касания в штрафной площади атаки.
  • Touches_Att3rd:Касание в атакующей трети.
  • Расстояние: расстояние

Примечание. Тепловая карта показывает, что касания в зоне атаки сильнее связаны с ударами в створ (и передачами, что мы увидим позже).

Интересно, что расстояние, по-видимому, слегка отрицательно коррелирует, что говорит о том, что наш разведчик должен присматривать за игроками…

  • находится в зоне атаки, но делает касания в штрафной
  • часто бьет по воротам
  • ограничение их движения ключевыми областями — кажется, что слишком много бега по длине поля вредно для забитых голов.

Поскольку наш идеальный игрок оказывает максимальное влияние в штрафной площади, нам нужно передать ему мяч, поэтому давайте подробнее рассмотрим передачи…

Эта тепловая карта показывает самые сильные связи с помощниками в нашем наборе данных:

  • KP:ключевые проходы
  • SCA: действия по созданию кадра.
  • GCA: действия по созданию цели

…но эти характеристики гораздо труднее оценить в скаутинге в реальном времени, чем удары в створ и касания в штрафной площади! Однако, если бы мы могли получить доступ к недавней статистике результативности игрока, могли бы мы использовать полный набор данных для прогнозирования возможных передач, даже если этот игрок на самом деле еще ничего не сделал? сильный>

Короткий ответ: да!

Мы действительно можем предсказать потенциал для передач с разумной степенью точности.

Используя значения для KP, SCA и GCA и их взаимосвязь с Ast, мы можем обучить линейную регрессию модель, а затем сравните эту модель с остальным набором данных, чтобы увидеть, как она работает.

В этом случае я тренировался на 75% очищенного набора данных, что дало точность предсказания 67% для оставшихся 25% данных.

Теперь, 67% ни в коем случае не впечатляющий показатель точности, и, как показано в этой статье, в данных были некоторые заметные недостатки. На мой взгляд, он не охватывал достаточного количества матчей, и было сравнительно мало полей, относящихся к оборонительным характеристикам (отсутствие статистики чистых матчей было заметно как футбольному фанату).

Все это подчеркивает потребность в большем количестве данных в растущей женской игре. На этом этапе мы должны собирать статистику, сопоставимую с мужской игрой, чтобы иметь возможность добиться большего с помощью анализа данных и помочь тем, кто за кулисами, определить тенденции и внести значимые изменения.

Если эта статья пробудила в вас интерес к женскому футболу, почему бы не поискать информацию о вашей местной команде и о том, как вы можете их поддержать.

Пожалуйста, также не стесняйтесь взглянуть на сопутствующий код к этой статье на GitHub.