Результаты модели предсказания ниже, и я даю подробный отчет о том, как я пришел к этому после. Показанные результаты основаны на стандартном подсчете очков ESPN и относятся только к прогнозируемым стартовым QB в 2018 году. Новички не включены в модель прогнозирования. Если вы ищете прогноз очков для Кардейла Джонса как глубоко спящего или Джоша Розена, вам придется провести собственное исследование.

Результаты:

Объяснение анализа:

Данные: индивидуальные игровые журналы для всех QB были собраны из статистики ESPN. По возможности были собраны данные за 2012 год. Собранные точки данных: сезон, дата игры, противник, результат, попытки паса, завершение паса, ярды паса, процент завершения, средняя длина паса, самый длинный пас, тачдауны паса, перехваты, QBR, рейтинг, попытки рывка, ярды паса, средний рывок. , Самый длинный рывок и Стремительные приземления. Я добавил дополнительный столбец, в котором подсчитывается количество очков игроков за игру в соответствии со стандартной системой подсчета очков ESPN.

Моделирование: с помощью Azure Machine Learning Studio я построил несколько регрессионных моделей, чтобы оценить, как работает каждая модель. Модель обучалась на данных за 2012–2016 годы и тестировалась на данных за 2017 год. Ниже приведены результаты первого запуска:

Модель байесовской линейной регрессии показала лучшие результаты на основе среднеквадратичной ошибки. Однако, обсудив модели с некоторыми друзьями, я решил запустить модели во второй раз, удалив все столбцы, не относящиеся к счету игрока (Дата игры. Противник, Результат, Процент завершения, Средняя длина паса, Самый длинный пас, QBR, Рейтинг, Средняя гонка и Самая длинная гонка). Я также потратил больше времени на подгонку модели, чтобы улучшить оценку.

На этом этапе я хотел найти две лучшие модели, поэтому я выбрал байесовскую линейную регрессию и регрессию нейронной сети с использованием нормализатора биннинга. Модель регрессии леса решений работала лучше, чем модель регрессии нейронной сети, но я решил не использовать ее из-за высокой оценки отрицательного логарифмического правдоподобия.

Следующим шагом было создание модели, сочетающей модели байесовской линейной регрессии и модели нейронной сети.

Результаты:

После экспорта деталей обученной модели в CSV-файлы я рассчитал средний балл между каждой моделью и игроком. Кроме того, я дифференцировал средний балл обеих моделей по домашним и выездным играм на игрока.