Линейная регрессия в R
Линейная регрессия — это оценка регрессии, которая обычно используется для проверки связи между одной установленной переменной Y и одной или несколькими переменными-предикторами.
Когда есть один предиктор, это называется простой линейной регрессией.
yi=β0+β1x+ϵ
Когда имеется более одного предиктора, это называется полилинейной регрессией.
yi=β0+β1xi1+β2xi2+…+βpxip+ϵ
В модели линейной регрессии учитываются четыре предположения:
- Линейность: это означает, что отношение между X и средним значением Y должно быть линейным.
2. Независимость: здесь говорится, что наблюдения не зависят от. друг с другом.
3. Гомоскедастичность: утверждает, что дисперсия остатка одинакова для всех значений X.
4. Нормальность: это означает, что Y распределяется нормально для каждого фиксированного значения X.
5. Автокорреляция: это означает, что остатки должны быть независимы друг от друга.
#предоставление тестовых данных
test ‹- data[1:10,]
head(test,n=10)
#giving train data
train ‹- data[11:340,]
head(train,n=50)
train_prop1 ‹- train[,-c(2)]
test_prop1 ‹- test[,-c(2)]
#Линейная регрессия
data_cor ‹- round(cor(train_prop1),digits = 2)
data_cor