CRISP-DM Data Science Football

Аналитика по игрокам FIFA 2019!

Футбольная аналитика и моделирование ФИФА

В этом посте мы проведем простой анализ данных и моделирование полного набора данных игроков FIFA 2019 в соответствии с процессом CRISP-DM. Набор данных был собран Kaggle. Набор данных содержит 1 файл CSV.

FIFA 2019 - это видеоигра-симулятор футбола, разработанная в рамках серии FIFA от Electronic Arts. Это 26-я партия в серии FIFA, в которой было продано более 20 миллионов единиц.

Давайте приступим!

В таком виде спорта, как футбол, каждый игрок вносит значительный вклад в успех команды. Важно понимать навыки игрока. Как возраст игры может повлиять на потенциал игрока? Какой игрок в каком профиле лучше? Исследование также сосредоточено на оценке общей производительности игрока на основе показателей эффективности и на том, как различные модели оценивают подготовленные данные.

Понимание данных

На втором этапе CRISP DM важно исследовать данные и решать вопросы интеллектуального анализа данных, используя визуализацию данных и запросы. Набор данных состоит из 89 столбцов, но мы ограничимся следующими столбцами:

Index(['Name', 'Age', 'Overall', 'Potential', 'Value', 'Wage', 'Special',
       'Preferred Foot', 'International Reputation', 'Weak Foot',
       'Skill Moves', 'Crossing', 'Finishing', 'HeadingAccuracy',
       'ShortPassing', 'Volleys', 'Dribbling', 'Curve', 'FKAccuracy',
       'LongPassing', 'BallControl', 'Acceleration', 'SprintSpeed', 'Agility',
       'Reactions', 'Balance', 'ShotPower', 'Jumping', 'Stamina', 'Strength',
       'LongShots', 'Aggression', 'Interceptions', 'Positioning', 'Vision',
       'Penalties', 'Composure', 'Marking', 'StandingTackle', 'SlidingTackle',
       'GKDiving', 'GKHandling', 'GKKicking', 'GKPositioning', 'GKReflexes'],
      dtype='object')
  1. Лучшие игроки в разных аспектах?

Можно заметить, что следующие игроки оцениваются как лучшие в соответствующих областях. Видно, что у К. Мбаппе самый высокий потенциал, у Криштиану Роналду самые умелые движения, у Найдо самая высокая точность игры головой и т. Д.

2. Самая предпочтительная нога игроков?

3. Влияние футбольной стопы на потенциал игрока

Из приведенного выше графика видно, что потенциал игрока практически не зависит от того, левый или правый игрок.

3. Влияет ли возраст на потенциал?

Из графика видно, что с возрастом потенциал игрока имеет тенденцию падать.

Моделирование

Показатели эффективности - это комбинация атрибутов, которая дает подробную информацию о выборе, общей производительности игрока. Тепловая карта используется для определения того, как показатели производительности влияют на общую производительность игрока.

Из тепловой карты видно, что общая производительность положительно коррелирует с большинством показателей производительности.

Третий этап CRISP-DM - ​​подготовка данных. Данные очищаются (обработка категориальных данных и отсутствующих значений для прогнозирования общей производительности) и подготавливаются для достижения результата. Модель линейной регрессии построена для прогнозирования общей производительности игрока на основе оценок производительности.

Оценка

Далее мы подогнали данные к различным моделям - регрессору случайного леса, к ближайшим соседям и регрессору дерева решений и оценили модели, используя следующие метрики:

  1. Средняя абсолютная ошибка
  2. R квадрат
  3. Среднеквадратичная ошибка

Заключение

В этой статье мы провели простой анализ данных полного набора данных игроков FIFA 2019.

  1. Мы посмотрели, какой игрок лучше по конкретному показателю производительности. Например: Л. Месси лучше всех добивается финиша.
  2. Затем мы посмотрели, как возраст влияет на потенциал игрока, т.е. с возрастом потенциал игрока уменьшается.
  3. Постройте модель, которая прогнозирует общую производительность игрока с учетом его навыков по каждому показателю производительности.
  4. Наконец, мы сравнили нашу модель линейной регрессии с KNearestRegressor, DecisionTreeRegressor, RandomForestRegressor.

Результаты здесь наблюдательные, остается еще много анализа:

Как ВЫ решите проблему?

Все коды доступны в моем репозитории Github.