Простое применение линейного моделирования в R

Удар может быть нанесен тремя способами: условный удар, замах или фол. Из этих трех событий процент дуновений является единственной статистикой, которая коррелирует с процентом аутов. Таким образом, дальнейшее понимание того, как индуцируются запахи, может улучшить способ оценки кувшинов.

Цель состоит в том, чтобы построить линейную модель для прогнозирования процента вычеркивания. Данные, использованные для этой модели, доступны для публичного использования на сайте BaseballSavant и включают сводную статистику по каждому питчеру, который сыграл не менее 250 матчей на тарелках в 2019, 2020 или 2021 году. Статистические данные усреднены для питчеров, которые играли в течение нескольких сезонов. Исходная модель представляет собой простую линейную регрессию между процентом слабых сторон и процентом вычеркивания, которую я показал ниже.

Как уже говорилось, существует сильная корреляция между процентом затухания и процентом вычеркивания со значением R², равным 0,81, и значением p, равным ~0. Это сильная база. Однако лучшая прогностическая модель будет иметь более высокий R² без ущерба для статистической значимости независимых переменных. Чтобы улучшить эту модель, процент запаха необходимо заменить статистикой, которая более точно влияет на результат подачи. Таким образом, статистика замены, рассматриваемая для этой модели, включает:

  • % свинга в зоне и % свинга вне зоны
  • % свинга и промаха в зоне и % свинга вне зоны
  • % контактов внутри зоны и % контактов вне зоны
  • % использования Fastball, Breaking и Off-Speed

Сначала создается линейная модель со всеми потенциальными входными переменными. В результате корреляция сильная, но некоторые входные данные имеют p-значения выше нашего уровня достоверности 0,05. Эти переменные удаляются из модели одна за другой в порядке убывания p-значения до тех пор, пока все оставшиеся входные переменные не станут статистически значимыми. Полученная модель показана ниже.

F-статистика очень велика, а p-значения близки к нулю, что свидетельствует о том, что вариации выходных данных не обусловлены случайностью. Новое значение R² составляет 0,88 — улучшение корреляции на 8% по сравнению с базовой моделью. График остатков и аппроксимации (не показан) подтверждает предположения о линейности данных. Ниже приведен график, сравнивающий прогнозируемый процент вычеркивания с фактическим процентом вычеркивания.

Эта новая модель является достойным улучшением и способна улучшить оценку питчера. Теперь аналитики могут более уверенно выявлять неэффективных питчеров с помощью количественной оценки их потенциальных преимуществ. Это может облегчить экономически эффективное приобретение игроков, диагностировать слабые места питчера и направить стратегии улучшения игроков. Одним из недостатков этой модели является то, что остатки начинают снижать линейность при значениях зачеркивания, превышающих 30%. Кроме того, модель учитывает только способность страйк-аута, что является несовершенным показателем для оценки питчера. Наконец, эта модель не включает игроков, чей полевой арсенал нелегко разделить на три категории (быстрый мяч, брейк-данс и внескоростной). Остается значительная область для улучшения!

Спасибо за чтение. Все мои проекты по анализу бейсбола можно найти по адресу https://github.com/jackwerner/Baseball-Analysis.

Я активно подаю заявку на работу бейсбольным аналитиком. Если вы или кто-либо из ваших знакомых нанимает бейсбольных аналитиков, свяжитесь со мной через https://linkedin.com/in/jack-werner.