Что такое линейная регрессия?

Линейная регрессия — это статистический метод, обычно используемый для прогностического анализа. Это способ смоделировать взаимосвязь между двумя переменными путем подгонки линейного уравнения к наблюдаемым данным.

Термин «регрессия» относится к предсказанию действительного числа, а термин «линейный» относится к тому факту, что метод линейной регрессии моделирует данные с линейной комбинацией независимых переменных.

Линейная регрессия для «одной» независимой переменной может быть представлена ​​в виде линейной комбинации как:

y = β0 + β1x ;

Значение зависимой переменной = константа + (вес*независимая переменная)

  • x — независимая переменная (переменная, которая может влиять на y)
  • y – прогнозируемое значение зависимой или целевой переменной (y) для любого заданного значения независимой переменной (x).
  • β0 – это точка пересечения, смещение или константа, прогнозируемое значение y, когда x равно 0.
  • β1 – это коэффициент регрессии, вес или наклон – ожидаемое изменение y при увеличении x.

Основные допущения простой линейной регрессии:

  1. Однородность дисперсии (гомоскедастичность)
  2. Независимость наблюдений. Между наблюдениями нет скрытой связи.
  3. Нормальность — данные следуют нормальному распределению.
  4. Линейная зависимость. Связь между независимой и зависимой переменной является линейной.

Как построить модель линейной регрессии?

Пока мы создаем модель, мы гарантируем, что независимая переменная влияет на зависимую переменную, и это влияние известно как корреляция. В линейной регрессии мы используем корреляцию Пирсона, которая находится в диапазоне от -1 до +1.

Значения корреляции -1 и +1 указывают на очень сильную линейную связь между целью и независимой переменной, тогда как 0 указывает на отсутствие линейной зависимости.

Линейная регрессия в Python

Пакет scikit-learn — это библиотека Python для машинного обучения. Он предоставляет средства для предварительной обработки данных, уменьшения размерности, реализации регрессии, классификации и многого другого.

Этапы реализации простой линейной регрессии с помощью scikit-learn

Пять основных шагов для большей части регрессии:

  1. Импортируйте пакеты и классы.
  2. Предоставьте/импортируйте данные и выполните соответствующие преобразования.
  3. Создайте модель линейной регрессии и сопоставьте ее с существующими данными.
  4. Проверьте результаты подгонки модели, чтобы узнать, хороша ли модель.
  5. Примените модель для прогнозов.

Промышленное применение линейной регрессии

1. Урожайность в зависимости от осадков.

Годовые данные об осадках за десятилетие можно использовать для установления взаимосвязи между осадками и урожайностью. Таким образом, годовое количество осадков рассматривается как объясняющая переменная, а урожайность сельскохозяйственных культур — как реагирующая переменная. Процесс линейной регрессии применяется к урожаю и прогнозирует его урожайность на основе количества осадков в демографическом регионе. Другие переменные, такие как посевная площадь, могут быть включены, чтобы установить взаимосвязь с каждой независимой переменной.

2. Изучение расхода топлива двигателем по параметрам работы двигателя.

Переменная реакции, расход топлива, предсказывается рабочими параметрами, такими как ускорение, скорость, наклон, число оборотов двигателя, объемный КПД. Водитель автомобиля может контролировать ускорение и наклон во время движения. Следовательно, мы можем выбрать эти переменные для использования в линейном регрессионном анализе.

3. Температура и количество проданных рожков мороженого

Модель линейной регрессии может быть использована для установления взаимосвязи между двумя переменными (температурой и количеством проданного мороженого) в форме y = β0 + β1x. Учитывая, что x представляет температуру, а y представляет количество проданных рожков мороженого.

Вывод:

Теперь мы знаем, что такое линейная регрессия, каковы основные допущения, как построить модель линейной регрессии и ее реализацию на Python с помощью scikit-learn с некоторыми примерами из реальной жизни.

#datascience #machinelearning #python #artificialintelligence #ai #dataanalytics #data #bigdata #linearregression #programming #datascientist #greatlearning #технологии #кодирование #datavisualization #computerscience #mylearning #pythonprogramming #analytics #tech #dataanalysis #iot #programmer #statistics #developer #ml #бизнес #python #инновации #кодер #аналитик данных