Как оценить эффективность вашей регрессионной модели

Регрессия — это тип алгоритма обучения с учителем, который включает прогнозирование непрерывной зависимой переменной на основе одной или нескольких независимых переменных. Для оценки эффективности регрессионной модели обычно используются различные показатели. В этом посте мы обсудим наиболее часто используемые метрики в задачах регрессии.

1- Среднеквадратическая ошибка (MSE): это наиболее часто используемый показатель в задачах регрессии. Он измеряет среднее квадратов различий между фактическими и прогнозируемыми значениями. MSE придает равный вес всем ошибкам, независимо от того, положительные они или отрицательные. Формула для MSE:
MSE = (1/n) Σ(yᵢ — ŷᵢ)²
, где n — количество наблюдений, yᵢ — фактическое значение, а ŷᵢ — прогнозируемое значение.

2- Среднеквадратичная ошибка (RMSE): RMSE — это квадратный корень из MSE, который дает ошибку в тех же единицах, что и зависимая переменная. Это популярный показатель, потому что его легко интерпретировать и понять. Формула для RMSE:
RMSE = √(MSE)
Средняя абсолютная ошибка (MAE): MAE аналогична MSE, но вместо возведения ошибок в квадрат принимает абсолютное значение ошибок. MAE полезен, когда выбросы сильно влияют на производительность модели. Формула MAE:
MAE = (1/n) Σ|yᵢ — ŷᵢ|

3- R-квадрат (R²): R-квадрат — это статистическая мера того, насколько хорошо регрессионная модель соответствует данным. Он измеряет долю дисперсии зависимой переменной, которая объясняется независимыми переменными. R-квадрат находится в диапазоне от 0 до 1, и более высокое значение указывает на лучшее соответствие. Формула для R-квадрата:
R² = 1 — (SSᵣ/SSₜ)
, где SSᵣ — сумма квадратов остатков, а SSₜ — общая сумма квадратов.

4- Средняя абсолютная ошибка в процентах (MAPE): MAPE измеряет процентную разницу между фактическими и прогнозируемыми значениями. Это полезно, когда масштаб зависимой переменной велик. Формула для MAPE:
MAPE = (1/n) Σ(|(yᵢ — ŷᵢ)/yᵢ|) x 100%

В заключение, это наиболее часто используемые метрики в задачах регрессии. Важно выбрать соответствующую метрику на основе постановки задачи и характера зависимой переменной.

посетите мой linkedin

#data #learning #machinelearning #искусственный интеллект #datascience #datascientist