Начало работы с линейной регрессией

Если мы исходим из определения линейной регрессии, мы можем сказать, что это метод установления связи между независимой функцией и зависимым результатом. Но по сути это просто прямая линия в 2-х измерениях, которую мы изучали в старшей школе. Это прямая линия, ее коэффициент и константа, которые помогли нам получить вывод о линии на плоскости, а также получить характер зависимой переменной.

Линейная регрессия также включает в себя то же значение, что и прямая линия, однако она просто отображает более широкую картину зависимой переменной, например, «y».
Это не точное значение y, а ближайшее или наиболее ожидаемое значение y в соответствии с разные значения независимой переменной говорят «x». Таким образом, линейная регрессия — это процесс получения ожидаемого значения модели ML, а не просто линии.

Мы будем использовать statsmodels (библиотеку python) для регрессии, так как она хороша для начинающих, хотя в отрасли преобладает scikit-learn (библиотека python). Некоторые предварительные условия — это хорошее представление о библиотеках numpy и pandas.

Уравнение линии регрессии такое же простое, как, например, прямая линия.

y = β1.x + β2
где y – это зависимая переменная или результат, а независимая функция – это x.

однако не обязательно, чтобы зависимая переменная была только одна. Может быть сколько угодно признаков, от которых зависит «у».

Следовательно, мы можем записать наше уравнение регрессии как

y = β1.x1 +β2.x2+β3.x3+β4.x4+ β5

чем больше число x, тем сложнее модель. Но, однако, не все функции значимы, поэтому мы включаем только значимый x в нашу линию регрессии.

Выполнение регрессионного анализа для заданного набора данных

Вы можете найти набор данных, использованный в анализе, здесь.
Кратко о наборе данных: это набор данных американских студентов. В одном из столбцов указан средний балл, а в другом — SAT, поэтому мы находим взаимосвязь между тем, как результаты SAT студентов влияют на их средний балл в колледже.
Набор данных, который я использую, предоставлен Карьерой-365.

в первую очередь мы импортируем все важные библиотеки

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm

Следующим шагом является загрузка файла csv.

data = pd.read_csv('1.01. Simple linear regression.csv')

Чтобы начать регрессионный анализ, необходимо определить зависимые и независимые переменные. Здесь, в этом случае, мы пытаемся предсказать средний балл студентов колледжа по их баллам SAT. поэтому GPA — это наш результат, обозначенный y, а SAT — функция, обозначенная x.

y = data ['GPA']
x1 = data ['SAT']

мы будем исследовать данные через точечный график

plt.scatter(x1,y)

Теперь мы готовы провести линию регрессии. Ну, вы можете спросить, зачем рисовать точечную диаграмму перед рисованием регрессии. вы получите ответ очень скоро. Итак, чтобы нарисовать линию регрессии, нам нужны коэффициенты, которые можно легко найти с помощью статистических моделей.

x = sm.add_constant(x1)
results = sm.OLS(y,x).fit()
results.summary()

Этот фрагмент кода создает три таблицы, необходимые для начала регрессионного анализа, а именно:

-›Сводная таблица модели
-›Таблица коэффициентов
-›Дополнительная таблица

Таблица кажется немного сложной, поэтому я выделил коэффициенты, которые нам потребуются для построения линии регрессии.

plt.scatter(x1,y)
yhat = 0.0017*x1 + 0.275
fig = plt.plot(x1,yhat, lw=4, c='orange', label ='regression line')
plt.xlabel('SAT', fontsize = 20)
plt.ylabel('GPA', fontsize = 20)
plt.show()

Вот мы и получили линию регрессии, и вы заметили, что она проходит так, что по обеим сторонам линии лежит почти одинаковое количество точек.

Это отмечает конец рисования линии регрессии, но не регрессионного анализа
Вы помните, что в таблице выше есть еще много вещей.
Давайте обсудим несколько важных из них один за другим: -

Стандартная ошибка отмечает ошибку в регрессии, чем она меньше, тем лучше регрессия.
Статистика T (t) и ее значение p (p›|t|) являются просто мерой того, насколько важна эта функция. . Значение p больше 0,05 подходит для переменной

Теперь, прежде чем понять таблицу результатов регрессии МНК, нам нужно хорошо знать МНК и декомпозицию изменчивости.
Я опубликую статью о МНК и продолжу обсуждение регрессии.

СЛЕДИТЕ ЗА ОБНОВЛЕНИЯМИ