В статистике линейная регрессия — это линейный подход к моделированию связи между скалярным откликом (меткой или зависимой переменной) и одной или несколькими исследовательскими переменными (функциями или откликом или независимыми переменными). Случай с одной независимой переменной называется простой линейной регрессией. Для более чем одной независимой переменной или ответа процесс называется множественной линейной регрессией.

В линейной регрессии отношения моделируются с использованием функций линейного предиктора, неизвестные параметры модели которых оцениваются на основе данных. Такие модели называются линейными моделями.

Чаще всего предполагается, что условное среднее значение ответа при заданных значениях объясняющих переменных (отклика или предикторов) является аффинной функцией этих значений; реже используется условная медиана или какой-либо другой квантиль. Как и все формы регрессионного анализа, линейная регрессия фокусируется на распределении условной вероятности ответа с учетом значений предикторов.

Гипотеза линейной регрессии

Модель линейной регрессии может быть представлена ​​следующим уравнением

  • Y – прогнозируемое значение.
  • θ₀ – это погрешность.
  • θ₁,…,θₙ — параметры модели
  • x₁, x₂,…,xₙ — значения характеристик.

Вышеупомянутая гипотеза также может быть представлена

где

  • θ — вектор параметров модели, включающий смещение. θ
  • x — это вектор признаков с x₀ = 1.

Допущения линейной регрессии:

  1. Слабая экзогенность. По сути, это означает, что переменные-предикторы x можно рассматривать как фиксированные значения, а не как случайные переменные. Это означает, например, что предполагается, что переменные-предикторы не содержат ошибок, то есть не содержат ошибок измерения.
  2. Линейность. Это означает, что среднее значение переменной отклика представляет собой линейную комбинацию параметров (коэффициентов регрессии) и переменных-предикторов. Связь между переменными отклика и признаков должна быть линейной. Предположение о линейности можно проверить с помощью точечных диаграмм. Как показано ниже, 1-й рисунок представляет линейно связанные переменные, тогда как переменные на 2-м и 3-м рисунках, скорее всего, нелинейны. Таким образом, 1-й рисунок даст лучшие прогнозы с использованием линейной регрессии.

3. Небольшая мультиколлинеарность или ее отсутствие. Предполагается, что мультиколлинеарность в данных незначительна или отсутствует. Мультиколлинеарность возникает, когда признаки (или независимые переменные) не являются независимыми друг от друга.

4. Незначительная автокорреляция или ее отсутствие. Другое предположение состоит в том, что в данных мало или совсем нет автокорреляции. Автокорреляция возникает, когда остаточные ошибки не являются независимыми друг от друга. Вы можете обратиться здесь для более глубокого понимания этой темы.

5.Гомоскедастичность. Гомоскедастичность описывает ситуацию, в которой член ошибки (то есть «шум» или случайное нарушение связи между независимыми переменными и зависимой переменной) одинаков для всех значений независимые переменные. Как показано ниже, фигура 1 имеет гомоскедастичность, а фигура 2 — гетероскедастичность.

6. Регуляризация

Существуют расширения линейной модели, называемые методами регуляризации. Они направлены как на минимизацию суммы квадратов ошибок модели в обучающих данных (с использованием обычного метода наименьших квадратов), так и на уменьшение сложности модели (например, число или абсолютный размер суммы всех коэффициентов в модели). .

Два популярных примера процедур регуляризации для линейной регрессии:

  • Лассо-регрессия: где обычные наименьшие квадраты модифицируются, чтобы также минимизировать абсолютную сумму коэффициентов (так называемая регуляризация L1).
  • Регрессия хребта: когда обычные наименьшие квадраты модифицируются, чтобы также минимизировать квадрат абсолютной суммы коэффициентов (так называемая регуляризация L2).

Эти методы эффективны для использования, когда во входных значениях присутствует коллинеарность, а обычные методы наименьших квадратов соответствуют обучающим данным.

7. Градиентный спуск

Когда есть один или несколько входных данных, вы можете использовать процесс оптимизации значений коэффициентов путем итеративной минимизации ошибки модели на ваших обучающих данных.

Эта операция называется градиентным спуском и работает, начиная со случайных значений для каждого коэффициента. Сумма квадратов ошибок рассчитывается для каждой пары входных и выходных значений. Скорость обучения используется в качестве коэффициента масштабирования, а коэффициенты обновляются в направлении минимизации ошибки. Процесс повторяется до тех пор, пока не будет достигнута минимальная сумма квадратов ошибок или дальнейшее улучшение невозможно.

При использовании этого метода необходимо выбрать параметр скорости обучения (альфа), который определяет размер шага улучшения, который необходимо выполнить на каждой итерации процедуры.

Градиентный спуск часто преподается с использованием модели линейной регрессии, потому что ее относительно просто понять. На практике это полезно, когда у вас очень большой набор данных либо по количеству строк, либо по количеству столбцов, которые могут не уместиться в памяти.

8.Убрать шум.

Линейная регрессия предполагает, что ваши входные и выходные переменные не зашумлены. Рассмотрите возможность использования операций очистки данных, которые позволят вам лучше выявить и уточнить сигнал в ваших данных. Это наиболее важно для выходной переменной, и вы хотите удалить выбросы в выходной переменной (y), если это возможно.

9. Распределения Гаусса:

Линейная регрессия будет делать более надежные прогнозы, если ваши входные и выходные переменные имеют распределение Гаусса. Вы можете получить некоторую выгоду, используя преобразования (например, log или BoxCox) для ваших переменных, чтобы сделать их распределение более гауссовым.

10.Изменение масштаба входных данных:

Линейная регрессия часто дает более надежные прогнозы, если вы масштабируете входные переменные, используя стандартизацию или нормализацию.

Оценка производительности модели

  1. Оценка RMSE и R² или коэффициент детерминации:

Мы будем использовать среднеквадратичную ошибку (RMSE) и коэффициент детерминации (оценка) для оценки нашей модели.

RMSE – это квадратный корень из среднего значения суммы квадратов остатков.

Показатель или коэффициент детерминации объясняет, насколько общая дисперсия зависимой переменной может быть уменьшена с помощью регрессии наименьших квадратов.

2. Остаточные графики:

Каждая модель линейной регрессии должна быть проверена на всех остаточных графиках. Такие графики регрессии направляют нас к правильной форме уравнений для начала. Вас также может заинтересовать предыдущая статья о регрессии.

Остаточный анализ обычно проводится графически. Ниже приведены две категории графиков, на которые мы обычно смотрим:

а. Квантильные графики: этот тип графика предназначен для оценки того, является ли распределение остатка нормальным или нет. График находится между фактическим распределением остаточных квантилей и абсолютно нормальным распределением остатков. Если график полностью перекрывается по диагонали, невязка распределяется нормально. Ниже приведен иллюстративный график приблизительного нормально распределенного остатка.

б. Диаграммы рассеяния и их интерпретация остатков. Графики этого типа используются для оценки допущений модели, таких как постоянная дисперсия и линейность, а также для выявления потенциальных выбросов. Ниже приведен график рассеяния идеального остаточного распределения.

Давайте попробуем визуализировать точечную диаграмму остаточного распределения с неравной дисперсией.

Если график таков, что невязки могут содержаться в горизонтальной полосе (а невязки колеблются более или менее случайным образом внутри полосы), то очевидных дефектов модели нет.

График таков, что остатки могут содержаться воронкой, открывающейся наружу, тогда такая картина указывает на то, что дисперсия ошибок не постоянна, а является возрастающей функцией y.

Графики таковы, что остатки могут быть размещены в воронке, открывающейся внутрь, тогда такая картина указывает на то, что дисперсия ошибок не является постоянной, а является убывающей функцией y.

Если график таков, что остатки могут быть размещены внутри двойной дуги, то такой шаблон указывает на то, что дисперсия ошибок не является постоянной, а y является пропорцией между 0 и 1. Тогда y может иметь биномиальное распределение. Дисперсия биномиальной пропорции около значения 0,5 больше по сравнению с близким к нулю или 1. Таким образом, предполагаемая связь между y и X нелинейна. Обычный подход к такому неравенству дисперсий заключается в применении подходящего преобразования либо к объясняющим переменным, либо к изучаемой переменной, либо к использованию метода взвешенных наименьших квадратов. На практике преобразования исследуемой переменной обычно используются для стабилизации дисперсии.

Если график таков, что остатки содержатся внутри криволинейного графика, то это указывает на нелинейность. Предполагаемая связь между y и X нелинейна. Это также может означать, что в модели необходимы некоторые другие объясняющие переменные. Например, может потребоваться квадрат ошибки. В этих случаях также могут быть полезны преобразования независимых переменных и/или переменных исследования.

Приложения линейной регрессии:

Линейная регрессия широко используется в биологических, поведенческих и социальных науках для описания возможных взаимосвязей между переменными. Он считается одним из наиболее важных инструментов, используемых в этих дисциплинах. Линейная регрессия играет важную роль в области искусственного интеллекта, такой как машинное обучение. Алгоритм линейной регрессии является одним из фундаментальных алгоритмов машинного обучения с учителем благодаря его относительной простоте и хорошо известным свойствам.

Преимущества и недостатки:

Основным преимуществом линейной регрессии является ее простота, интерпретируемость, научное признание и широкая доступность. Линейная регрессия — это первый метод, используемый для решения многих проблем. Аналитики могут использовать линейную регрессию вместе с такими методами, как перекодирование переменных, преобразование или сегментация.

Его главный недостаток состоит в том, что многие явления реального мира просто не соответствуют предположениям линейной модели; в этих случаях трудно или невозможно получить полезные результаты с помощью линейной регрессии.

Линейная регрессия широко доступна в пакетах статистического программного обеспечения и инструментах бизнес-аналитики.

Свяжитесь со мной через Linkedin и Medium для получения новых статей и блогов.

— — — * — — — * — — — * — — — * — — — * — — — * — — — * —

«Развивайте страсть к обучению. Если вы это сделаете, вы никогда не перестанете расти». Энтони Дж. Д'Анджело

— — — * — — — * — — — * — — — * — — — * — — — * — — — * —