Линейная регрессия — это подход к прогнозированию количественного ответа Y на основе предикторной переменной X. Он предполагает, что между X и Y существует приблизительно линейная зависимость. Математически мы можем записать эту линейную зависимость как

При наличии одной входной переменной (x) метод называется простой линейной регрессией. При наличии нескольких входных переменных в статистической литературе метод часто называется множественной линейной регрессией.

β0 и β1 — две неизвестные константы, которые представляют точки пересечения и наклона в линейной модели. Вместе β0 и β1 известны как коэффициенты или параметры модели. После того, как мы использовали наши обучающие данные для получения оценок ˆ β0 и ˆ β1 для коэффициентов модели, мы можем прогнозировать будущие продажи на основе конкретного значения

где ˆy указывает на предсказание Y на основе X = x. Здесь мы используем символ шляпы ˆ для обозначения оценочного значения неизвестного параметра или коэффициента или для обозначения прогнозируемого значения отклика.

На приведенном выше рисунке ось X обозначает предиктор, а ось Y — ответ. Красные точки — это точки данных в тренировочном наборе. Синяя линия — это линия линейной регрессии, а линия, выпавшая из красной точки на линии регрессии, представляет собой ошибку, обозначенную

это разница между i-м наблюдаемым значением отклика и i-м значением отклика, предсказанным нашей линейной моделью. Определим остаточную сумму квадратов (RSS) как

Если мы возьмем среднее значение, оно станет среднеквадратичной ошибкой, где n — количество наблюдений.