ЧАСТЬ II

Во второй части я объясню, почему я использовал систему рекомендаций, чтобы узнать начальное значение, с которым можно сравнить результаты модели машинного обучения, используемой для определения заработной платы и рыночной стоимости профессиональных игроков.

Статья разделена следующим образом: в первой части объясняется, что такое рекомендательная система; во второй части объясняется процесс получения данных; В последней части показаны результаты.

Система рекомендаций

Система рекомендаций работает, по сути, так же, как и в повседневной жизни. Представьте, что вы хотите пригласить свою возлюбленную на ужин, но не знаете, какое место идеально подойдет для свидания с ней.

Что вы делаете? Естественно, первое, о чем вы думаете, это спросить своих друзей или семью.

Почему? Потому что у вас и ваших друзей будут совпадения во вкусах, и, исходя из вашего опыта, вы займете позицию «доверия» к этой рекомендации.

То есть, если у кого-то из ваших знакомых был хороший опыт или память, это дает вам, априори, ощущение достоверности для вас чего-то совершенно вам неизвестного.

Это по-прежнему актуально, несмотря на объем данных, которые мы ежедневно генерируем, и это позволяет поисковым системам, таким как Google, давать рекомендации на основе нашего взаимодействия с различными социальными сетями.

Важно отметить, что рекомендации, которые мы получаем от наших друзей или семьи, всегда будут ограниченными, потому что без технологических инструментов невозможно знать все варианты, доступные в мире.

К счастью, существует концепция под названием совместный фильтр.

Совместный фильтр — это метод решения проблем, связанных с избытком информации, с которыми сталкиваются потребители любого товара или услуги в мире.

Многие компании и веб-сайты используют инструмент, с помощью которого потребители сами «создают» «коллективную рекомендацию», связывающую людей со схожими предпочтениями, которые получат «целевую» информацию или реклама на основе кликов, которые они ранее сделали на продукте.

С другой стороны, другие типы фильтров:

Фильтр на основе содержания:рекомендации составляются в соответствии со вкусами или интересами потребителя.

Демографический фильтр: рекомендации составляются на основе характеристик пользователей с учетом возраста, школьного класса, местоположения, пола и т. д.

  • Гибридный фильтр: они являются результатом использования любого из фильтров, упомянутых выше, для улучшения взаимодействия с пользователем.

Этот тип фильтра можно применить с помощью метрик или измерений расстояния, в зависимости от типа используемых данных. Такие меры часто называют «рекомендациями».

Рекомендатель собирает и анализирует предпочтения пользователей веб-сайта (интернет-магазинов, социальных сетей, музыкальных или киносайтов и т. д.).

Основная идея рекомендаций заключается в том, что пользователи со схожими действиями или вкусами продолжат делиться своими предпочтениями в будущем.

Когда вы рекомендуете новым пользователям продукты или действия, которые ранее выбирали другие пользователи со схожими вкусами, степень успеха по сравнению с их предпочтениями будет иметь тенденцию быть все более высокой и точной.

Способ найти наиболее связанных пользователей и использовать эту информацию для прогнозирования их предпочтений называется кластеризация и заключается в том, чтобы найти оптимальное подразделение набора данных, чтобы похожие данные принадлежали та же группа.

Одной из метрик, используемых для вычисления этого сродства, является «евклидово расстояние», которое представляет собой не что иное, как обобщение теоремы Пифагора на N измерений.

Однако существуют и другие меры:

  • расстояние Минковского
  • Манхэттенское расстояние
  • Расстояние Чебышева

Однако существуют и другие меры:

• Расстояние Минковского
• Манхэттенское расстояние
• Расстояние Чебышева

Некоторые компании, которые имеют этот тип инструментов:

Facebook, Instagram, Twitter и LinkedIn генерируют рекомендацию от людей на основе ваших знакомых и их ссылки, и это позволяет связать информацию, которую вы видите, с типом вашего социального профиля
Amazon рекомендует продукты на основе прошлых покупок, оценок и покупок или оценок других пользователей, похожих на вас.
Netflix формирует свои рекомендации на основе фильмов, которые вы смотрели, предоставленной оценки и фильмов, которые видели пользователи, похожие на вас.

Однако ключом к созданию хорошей рекомендации является знание насколько похожи два пользователя.

В этом случае мы будем делать это через физические атрибуты и способности игроков.

Первое, что мы сделаем, это найдем совпадения между игроками, которые есть в базе данных FIFA 19.

Когда у нас будут эти расстояния, мы перейдем к поиску информации о 15 профессиональных игроках женского пола и, наконец, получим начальные значения.

Извлечение информации

Из-за временного 10-дневного ограничения, которое у меня было для моего финального проекта в Ironhack, мне удалось обработать информацию только для 15 профессиональных игроков, из которых 3 — мексиканские футболистки.

Важно отметить, что FIFA 19 включает в игру 22 из 24 женских сборных в рамках обновления игры, которое дало любителям футбола возможность смоделировать женский чемпионат мира по футболу.

Однако информация ни о какой женщине не включена в доступную базу данных. Сначала у меня не было возможности использовать рекомендательную систему без данных игроков.

Моим первым решением было поискать на портале Transfermarkt (https://www.transfermarkt.com/) профессиональных игроков. Проблема в том, что этот знаменитый портал из-за большого количества информации об игроках забыл, что женщины тоже играют в футбол.

Давайте посмотрим на пример

К счастью, есть портал FIFA Index (https://www.fifaindex.com/es-mx/), где я мог проверить физические характеристики и навыки рассматриваемых игроков.

Так как у меня не было списка всех игроков, которые участвовали в чемпионате мира, я взял только группу игроков.

Возможно, позже я восстановлю всю информацию о женщинах-игроках, но сейчас, с этими 15 игроками, у нас есть довольно мощное понимание.

Я сохранил информацию об игроках в новой базе данных, созданной специально с необходимой мне информацией.

То есть, поскольку было невозможно восстановить такие данные, как «Клуб», «Позиция», «Джерси», «Взято в аренду», «Присоединился», «Контракт действителен», среди прочего, если я включу информацию об игроках. У меня были бы проблемы с пустыми значениями, и это была проблема, которую я уже решил ранее.

Результаты

Первым шагом было импортирование окончательной базы данных, которую мы видели в прошлой статье. Эта база данных полностью чистая и полная.

После импорта все числовые поля были оставлены для расчета евклидовых расстояний.

Результаты этих расстояний преобразованы, чтобы оставить их, как если бы это была матрица корреляции, где диагональ всегда будет равна 1, а остальные значения будут варьироваться от 0 до 1. Результаты показаны в следующей таблице.

Получив эти результаты, я попытался убедиться, что система рекомендаций работает.

В частности, я искал, какой игрок больше похож на 'L. Месси’и, естественно, самый похожий на него игрок — «Криштиану Роналду».

После того, как я убедился, что это работает, следующим шагом было включение информации об игроках-женщинах в рекомендательную систему и повторный расчет дистанций.

Способ ввода данных игроков был следующим:

Процедура такая же, вычисляем расстояния и регенерируем массив значений от 0 до 1.

Наконец, были выбраны 3 мексиканских игрока: «Кенти Роблес», «Стефани Майор» и «Чарлин Коррал».

Показанные значения относятся к первым 5 игрокам, которые на них похожи.

Где ближайший игрок — «S. Phillips», где по физическим характеристикам и навыкам зарплата этого игрока должна соответствовать 1000 тысяч евро в год или 20,5 тысяч песо. Это почти в 5 раз больше, чем они получают в среднем в месяц в Мексике.

Результат Стефани Майор аналогичен результату Кенти Роблес.

Наконец, анализ Charlyn Corral показывает, что его зарплата должна быть близка к 41,1 тыс. песо, что является огромной разницей с заработной платой, выплачиваемой в Мексике.

Из этого упражнения можно понять, почему необходимо изучать разницу в заработной плате мужчин и женщин в спорте.

Анализ конкретных элементов, таких как физические характеристики и атрибуты, дает большое количество важной информации, которая может быть интересна любому футбольному клубу, стремящемуся привлечь наилучшие возможные таланты для участия в соревнованиях за титул.

В частности, в случае с Мексикой ясно, что если распространить это упражнение на всех женщин-игроков, результаты будут более чем показательными, и необходимо срочно пересмотреть условия работы всех профессиональные игроки женского пола.

Я приглашаю вас прочитать последнюю часть этого проекта с моделью машинного обучения, где делается окончательный прогноз заработной платы и рыночной стоимости и сравнивается со значениями, найденными в системе рекомендаций.

Если вы пропустили первую часть, вы можете посмотреть здесь http://bit.ly/31Ft45d и финальный проект https://jmcass.github.io/SportsAnalytics/index.html.

Спасибо, что прочитали и поделились!