Все о линейной регрессии

Всякий раз, когда кто-то начинает с машинного обучения, самый первый алгоритм, который он должен выучить, — это линейная регрессия. Линейную регрессию можно рассматривать как «a b c» машинного обучения. Это самый простой, но один из самых используемых и мощных алгоритмов в машинном обучении. В этом посте мы рассмотрим только теоретический аспект линейной регрессии.

ГЛАВНАЯ ИДЕЯ

Прежде чем углубляться в технические аспекты алгоритма, давайте немного познакомимся с идеей линейной регрессии. Предполагая, что все люди, читающие это, знакомы с основами математики. давайте разберемся с этим на примере:

Предположим, вы Тони Старк, и вам нужно купить металлический титан, чтобы сделать новые костюмы Железного человека. 1 кг металлического титана стоит 100 долларов США, подумайте, сколько вам будет стоить 50 кг титана?

Если вы думали 5000 долларов США, поздравляю! вы правы. Если вы думали о каком-то другом ответе, подумайте о том, чтобы снова изучить базовую математику. Итак, для тех, кто прав, я предполагаю, что вы применили концепцию уравнения прямой линии. то есть

y = mx + c

Здесь y = стоимость 50 кг титана, m = 50 (необходимое количество титана), x = 100 долларов США (стоимость 1 кг титана), c = 0. Подставив значения в приведенное выше уравнение, мы получим результат y = 50*100 + 0 = 5000 долларов США.

Если вы поняли приведенный выше пример, вы поняли основную концепцию линейной регрессии. Хотя есть некоторые различия, базовая концепция одинакова.

Теперь, когда мы поняли алгоритм с точки зрения непрофессионала, давайте изучим линейную регрессию немного более профессионально.

ТЕОРИЯ И КОНЦЕПЦИЯ

Основная концепция линейной регрессии заключается в том, чтобы найти линейную связь между переменными, зависимыми и независимыми переменными, чтобы быть конкретными.

Как и в приведенном выше примере, если мы возьмем пример уравнения прямой линии, здесь y является зависимой переменной (значение, которое нам нужно найти), а x является независимой переменной (от которой зависит значение y).

В линейной регрессии мы пытаемся подобрать линейную (прямую) линию, проходящую через точки данных, так, чтобы общее расстояние линии регрессии от всех точек данных было минимальным. Теперь давайте посмотрим, как построена линия регрессии.

Как правило, мы рассчитываем расстояние каждой точки данных от линии регрессии, а затем добавляем расстояния, линия с наименьшим общим расстоянием считается линией регрессии. Эту линию с наименьшим расстоянием также можно назвать Линия наилучшего соответствия. Отсюда линейная регрессия получает другое определение: «Линейная регрессия — это метод машинного обучения, который работает путем построения наилучшего подгонка линии, проходящей через все точки данных»

Затем построенную линию регрессии можно использовать для дальнейших прогнозов.

МАТЕМАТИКА

Общее уравнение линейной регрессии не отличается от уравнения прямой линии. Его можно представить как

ŷ =b0+ b1X1 + b2 X2 + ……. бнХн

где b0 — константа, b1,b2,….bn — веса/коэффициенты, а X1,X2,….Xn — независимые переменные.

Если уравнение имеет только 1 независимую переменную, уравнение сводится к ŷ =b0+ b1X1 которое нас всех учили в школах как уравнение прямой линии y = mx + c.

Теперь давайте поговорим о коэффициентах регрессии, сначала для простой линейной регрессии.

Хотя коэффициенты рассчитываются алгоритмом автоматически, понимание того, как они рассчитываются, всегда является положительным моментом.

Простая линейная регрессия имеет уравнение Y = B0+B1X. B0 — константа, а B1 — коэффициент регрессии. Тогда формула для расчета коэффициента регрессии принимает следующий вид:

B1 = Σ [ (xi — x)(yi — y) ] / Σ [ (xi — x)²]

где x, y — средние значения x и y соответственно, а xi, yi — наблюдаемые значения.

В случае множественной линейной регрессии, когда имеется несколько коэффициентов, сложность расчета коэффициентов регрессии возрастает. Чтобы узнать, как рассчитать коэффициенты регрессии в множественной линейной регрессии, вы можете обратиться к этой следующей статье.

Множественная линейная регрессия вручную (шаг за шагом) — Statology
Множественная линейная регрессия — это метод, который мы можем использовать для количественной оценки взаимосвязи между двумя или более переменными-предикторами…www.statology.org

РАБОТАЕТ

Теперь, когда мы знаем интуицию и математику, лежащие в основе линейной регрессии, давайте разберемся, как алгоритм работает за кулисами.

предположим, нам нужно создать модель, которая может прогнозировать цены на жилье, если ей задано количество комнат и этажей на основе набора данных о ценах на жилье.

Прежде всего, во время обучения линейная регрессия упорядочит переменные в уравнение y = b0 + b1X1 +b2X2 +…..bnXn. В этом случае это будет выглядеть примерно так

цена = b0 +b1*количество_комнат + b2*количество_этажей

где цена — зависимая переменная, количество_комнат и количество_этажей — независимые переменные, b1 и b2 — коэффициенты, а b0 — постоянный член.

Модель линейной регрессии сначала случайным образом инициализирует значения b1, b2 и b0 и вычисляет значение цены. После расчета цены он сравнивает ее с фактической ценой в соответствии с набором данных и вычисляет ошибку или уровень достигнутой неточности. Это можно сделать с помощью различных методов определения ошибок, таких как MSE (среднеквадратическая ошибка) и MAE (средняя абсолютная ошибка).

После вычисления ошибки алгоритм будет повторять свой цикл, внося изменения в значения коэффициентов до тех пор, пока ошибка не будет минимизирована и не будет достигнут определенный уровень точности.

ПРЕДПОЛОЖЕНИЯ В ЛИНЕЙНОЙ РЕГРЕССИИ

Теперь, когда мы узнали, что такое линейная регрессия и как она используется, мы подошли к очень важному аспекту линейной регрессии, который должен знать каждый. Есть некоторые предположения, которые вам всегда нужно проверять при выполнении линейной регрессии, потому что они могут сильно повлиять на вашу модель. Теперь давайте посмотрим, что это за предположения:

Линейность
Нормальность
Мало или нет мультиколлинеарности
гомоскедастичность
Нет автокорреляции

Давайте разберем их один за другим

Линейность

Линейная регрессия всегда требует наличия линейной связи между зависимыми и независимыми переменными. Также важно проверять наличие выбросов, поскольку линейная регрессия чувствительна к эффектам выбросов. Это предположение о линейности можно легко проверить с помощью графиков рассеяния. Они отображают все точки данных на диаграммах, как показано ниже:

график 1 показывает, что существует линейная зависимость между зависимыми и независимыми переменными. график 2 означает небольшую линейность, а график 3 ясно показывает, что между зависимой и независимой переменными нет линейной связи.

НОРМАЛЬНОСТЬ

Линейная регрессия предполагает, что используемые данные нормально распределены. Это предположение можно проверить с помощью гистограммы или нормального графика Q-Q. Также нормальность можно проверить с помощью некоторых тестов, таких как Шапиро-Уилка и Колмогорова-Смирнова.

давайте посмотрим, как выглядят графики нормальности:

Нормальное распределение – это такое распределение, которое образует кривую в форме колокола. Например, на 1-м изображении выше распределение искажено, а на 2-м изображении оно симметрично и образует кривую в форме колокола. Следовательно, мы можем сделать вывод, что распределение на 2-м изображении нормальное, а для 1-го верно обратное.

Другой способ проверки нормальности с помощью графиков — использование графика Q-Q, он выглядит следующим образом:

Таким образом, мы можем заключить из вышесказанного, что, если распределение нормальное, график Q-Q следует прямой линии.

НЕМНОГО ИЛИ ОТСУТСТВИЕ МУЛЬТИКОЛЛИНЕАРНОСТИ

Еще одно важное допущение линейной регрессии заключается в том, что мультиколлинеарность переменных практически отсутствует. Мультиколлинеарность возникает, когда существует высокая корреляция между независимыми переменными. т. е. изменение одной независимой переменной сильно влияет на другие независимые переменные.

Мультиколлинеарность можно проверить с помощью:

Значения VIF. Значения VIF или фактора инфляции вариации могут оказаться очень полезными для проверки мультиколлинеарности независимых переменных. Значение VIF выше 10 указывает на сильную корреляцию между независимыми переменными. Значения VIF в диапазоне 5–10 могут указывать на умеренную или слабую корреляцию, а значения ниже 5, как правило, не коррелируют.
Матрица корреляции: при вычислении матрицы двумерной корреляции Пирсона среди всех независимых переменных коэффициенты корреляции должны быть меньше 1. Значения больше 1 могут указывать на сильную корреляцию.

Если в данных обнаружена мультиколлинеарность, самое простое решение — удалить переменные с высокими значениями VIF для решения проблемы или, в некоторых случаях, центрирование данных, которое выполняется путем вычитания среднего значения переменной из каждого значения. .

МАЛО ИЛИ ОТСУТСТВИЕ АВТОКОРРЕЛЯЦИИ

Автокорреляция означает, что остатки переменной не являются независимыми друг от друга. Автокорреляционный анализ измеряет взаимосвязь наблюдений между различными моментами времени. Другими словами, когда значение y(x+1) не является независимым от значения y(x). Проблема автокорреляции в основном встречается в данных временных рядов, где предыдущая тенденция может повлиять на текущее поведение.

Предположение об автокорреляции можно проверить с помощью теста Дарбина-Ватсона теста. Не вдаваясь в технические подробности, диапазон значений Дарбина-Ватсона составляет от 0 до 4. Если значения Дарбина-Ватсона находятся в диапазоне 1,5–2,5, это указывает на отсутствие проблемы автокорреляции. Если значение ниже 1,5, это указывает на положительную автокорреляцию, а значение выше 2,5 указывает на наличие отрицательной автокорреляции.

ГОМОСЦЕДАСТИЧНОСТЬ

Последнее предположение линейной регрессии - это гомоскедастичность, также известная как однородность дисперсии, - это предположение о равных или подобных дисперсиях в разных сравниваемых группах. последовательность случайных величин гомоскедастична, если все ее случайные величины имеют одинаковую конечную дисперсию. В регрессионном анализе это можно понимать как состояние, при котором дисперсия остатка или члена ошибки в регрессионной модели постоянна.

Предположение о гомоскедастичности можно проверить с помощью диаграммы рассеяния. Если остатки равны по всей линии регрессии, данные гомоскедастичны, в противном случае они гетероскедастичны.

На этом завершается вся теоретическая концепция линейной регрессии. Если вам нравится этот блог, мы будем признательны за отзыв и отзыв 😊.

Спасибо ! Подписание!