Для прогнозирования трансферной ценности игрока мы обучим линейную регрессию для создания модели прогнозирования.

Начнем с импорта необходимых библиотек.

Я использовал этот набор данных «TFM_Transfers.csv» ниже, который содержит значения передачи и другие переменные для нескольких игроков. Я отфильтровал поля, которые я нашел наиболее значимыми для проблемы.

Затем я попытался проявить творческий подход и придумать дополнительную футбольную переменную, которая каким-то образом могла бы повлиять и коррелировать со стоимостью трансферов.

ВВП на душу населения страны многое говорит нам о внешней экономике страны, сравнивая ее с другими странами. Таким образом, это может быть интересным индикатором для модели, поскольку экономика страны также оказывает большое влияние на финансовую мощь клубов в этой стране.

Здесь интерес представляют как ВВП на душу населения в стране клуба-покупателя, так и ВВП клуба-покупателя, поскольку финансовое положение обеих вовлеченных сторон будет влиять на практикуемые трансфертные ценности. Затем мы обратимся к следующим наборам данных pib_seller.xlsx и pib_buyer.xlsx.

Исследовательский анализ данных

Прежде всего, нам нужно сначала понять данные и попытаться извлечь из них как можно больше информации.

Исследовательский анализ данных относится к критическому процессу выполнения первоначальных исследований данных с целью обнаружения закономерностей, выявления аномалий, проверки гипотез и проверки предположений с помощью сводной статистики и графических представлений.

Информация о наборах данных, связанных с ВВП на душу населения

В исходный набор данных добавлен ВВП на душу населения стран

Удаленные дубликаты

Удаляет строки и столбцы с NA

Информация о наборе данных market_dataset

Теперь давайте посмотрим на предпочтительное распределение шагов.

Из набора данных удалены игроки-амбидекстры, потому что они могут каким-то образом выделяться и давать неверную информацию модели.

Давайте посмотрим на таблицу с минимумом, максимумом, средним значением, стандартным отклонением и квантилями числовых переменных, которые я рассматривал для этой модели.

Очевидно, что не может быть игроков с минимальным весом и ростом 0, поэтому эти игроки являются выпадающими, и поэтому мы их удаляем. Начнем с рассмотрения распределения переменных веса и роста.

Теперь давайте построим распределения других функций.

Распределение веса

Распределение по высоте

У игрока не может быть 0 веса и роста, поэтому я удалил эти выбросы, чтобы не мешать модели.

Возрастное распределение

Судя по всему, все нормально с этим дистрибутивом.

Распределение позиций

Распределение ВВП на душу населения

Есть некоторые выбросы в ВВП на душу населения в стране-покупателе. Давайте узнаем, что это за страны.

Монако является исключением с точки зрения ВВП на душу населения, поэтому я удаляю из набора данных строки и столбцы, в которых Монако является страной/клубом-покупателем.

Затем я хочу количественно оценить влияние переменной de uma на другую переменную с помощью тепловой карты корреляции.

Распределение функций

Диаграмма экстремумов и квартилей

Как возраст игрока влияет на широту его рыночной стоимости?

Здесь мы можем подтвердить через кошачью диаграмму, что рыночная стоимость игроков ближе к концу их карьеры имеет меньшую амплитуду и выбросы, как и ожидалось.

Как и ожидалось, распределение рыночной стоимости полузащитников и нападающих гораздо менее рассредоточено, чем распределение GR и защитников, и последние, как правило, имеют гораздо более низкую рыночную стоимость по сравнению с полузащитниками и нападающими.

Распределение возраста, по которому игроки продаются в определенных странах

Здесь мы видим, что Португалия явно является страной для проецирования игроков, которая продает в основном очень молодых игроков. В других европейских «больших пятерках» распределение возрастов, в которых игроки продают, гораздо шире.

Взаимосвязь между стоимостью продажи игрока и долей стоимостного рынка, оцененной Transfermarkt

Теперь я вычислил значение трансферной разницы и нанес на график значение трансферной разницы по возрастам, позициям и футам.

Судя по предыдущему графику, клубы более склонны платить рыночную стоимость игроков-левшей, чем игроков-правшей.

Я заканчиваю здесь EDA, давайте наконец построим модель.

Теперь, когда у нас есть переменные, которые мы хотим обработать, мы должны передать категориальные переменные в OneHotEncoder.

Затем я передал числовые переменные в MinMax.

Соединил категориальные с числовыми в X и отделил наш столбец меток в Y.

Сделайте разделение между обучающим набором данных и тестовым набором данных.

Затем мы обучаем нашу модель с помощью тренировочного набора.

Теперь, когда у нас есть обученная модель, мы можем использовать ее для прогнозирования тестового набора.

Выводы

Мы можем использовать прогнозы набора тестов для оценки нашей регрессионной модели.
Давайте получим оценку следующих показателей:

MSE. Метрика, показывающая среднеквадратичную разницу между прогнозируемыми и фактическими значениями в наборе данных. Чем ниже MSE, тем лучше модель соответствует набору данных.

RMSE: показатель, который показывает нам квадратный корень из средней квадратичной разницы между прогнозируемыми и фактическими значениями в наборе данных.

R2. Статистическая мера, представляющая долю дисперсии зависимой переменной, которая объясняется независимой переменной или переменными в регрессионной модели.

Не самые лучшие оценки.. только примерно чуть больше половины наблюдаемой вариации можно объяснить входными данными модели и получить высокие оценки MSE и RMSE. Но прелесть машинного обучения в том, что его всегда можно улучшить :)))

Какие-либо предложения? Дайте мне знать!!!

Надеюсь, вам понравилось чтение!!!

Подпишитесь на меня:
https://www.linkedin.com/in/ricardoandreom/
https://twitter.com/HspaceAnalytics
https:/ /www.instagram.com/halfspace_analytics/
https://linktr.ee/ricardoandreom

Повторный график

Резидуальная диаграмма — это график остатков, которые, если они случайным образом распределены вокруг горизонтальной оси, для данных подходит модель линейной регрессии, в противном случае более подходящей является нелинейная модель.
Давайте отобразим наш повторный график.

Принимая во внимание предыдущее определение и вывод, я бы сказал, что линейная модель здесь подходит и подходит для данного вопроса.