Я люблю баскетбол, поэтому многие мои проекты связаны с ним. Существует неограниченное количество данных, которые можно добывать для бесконечного количества проектов.

Я пишу свой код, используя IDE PyCharm как на Windows (бла), так и в OSX (ме). Я сотрудничаю с моим блестящим другом и наставником по Python Девином. Он участвовал во многих моих проектах. Для своих исследований в области баскетбола я использую фантастический веб-сайт Basketball Reference.

Меня интересует машинное обучение, разновидность искусственного интеллекта. Это глубокая тема, и я новичок в ней, но я использовал ее для классификации (например, сортировки объектов по категориям) и регрессии (это похоже на определение отношений между объектами). Чтобы определить, какие игроки НБА войдут в звездную команду, я решил, что лучше всего использовать модель классификации дерева решений. (Все звезды? Да/Нет)

Чтобы выяснить, какие игроки будут названы звездами, мы должны проанализировать прошлую статистику. Каждая точка данных является признаком. Какие характеристики сделают игрока NBA All Star? Вероятно, он набирает много очков, играет много минут, добирается до линии штрафных бросков и т. д. Мы можем извлечь множество признаков из набора данных. Перехваты, потери, блоки, подборы, процент бросков, возраст игроков, сыгранные игры и т. д. Но если вы попытаетесь обучить компьютер слишком большому количеству функций, это создаст много шума и может привести к тому, что называется переоснащением. Вероятно, не так важно знать, какого цвета кроссовки носит игрок и какую жвачку он любит жевать.

Итак, какие функции важны для прогнозирования выбора All Star? Мы можем использовать хороший модуль из библиотеки Python scikit-learn для определения важности функции. Компьютер просматривает наш большой CSV-файл игроков НБА и всю их соответствующую статистику за все сезоны (файл, который я использовал, датируется 1980 годом). В файле есть столбец под названием Все звезды. Это заполняется 1 (Истина) или 0 (Ложь). Компьютер может начать видеть и изучать функции, связанные с All Stars.

Вот 10 наиболее важных функций из нашего набора данных, выраженных в процентах.

Таким образом, узнав от прошлых игроков, мы можем применить алгоритм к игрокам сезона 2016–17. Мы говорим компьютеру: «Эй, мы не знаем, кто должен быть Матчем звезд. Как насчет того, чтобы просмотреть статистику всех игроков и, зная, что вы знаете о том, что делает Матч звезд, вы попытаетесь «классифицировать» их для меня». Здесь следует отметить, что я не сказал компьютеру, сколько классификаций ему нужно сделать. Я не говорил, что должно быть определенное количество игроков из восточных/западных конференций. Он просто просмотрел холодную жесткую статистику и сказал: «Хорошо, вот что я думаю». поэтому, используя список функций, упомянутых выше, вот список прогнозов.

После того, как 26 января 2017 года были окончательно определены составы Матча звезд, я вставил их в электронную таблицу и сравнил с моими прогнозами. Как я справился? Классификация 20/24 была правильной. это 83% — Довольно хорошо! Я отредактировал некоторые анализы и примечания. Я сказал, что если алгоритм не смог предсказать Матч звезд, то этот игрок должен быть переоценен. ! *кашляет*Лиллард*кашляет*

Статистические данные взяты с сайта www.basketball-reference.com.