Объяснение формул простой и множественной линейной регрессии

Легко читаемое математическое объяснение формул простой и множественной линейной регрессии

Большинство людей знают о линейной регрессии и ее применении, но лишь немногие углубились и задались вопросом, откуда берутся уравнения и математические формулы, которые они используют(Да, я один из них).
Поскольку я чувствую, что это не очень популярная тема в Интернете, а во многих статьях и видео нет времени на объяснение этих концепций, я решил сделать это в этом посте.

Но сначала для тех, кто только что попал сюда и не имеет представления о линейной регрессии, давайте сделаем краткое введение (если вы уже знакомы с линейной регрессией и просто хотите знать, откуда берутся формулы, не стесняйтесь пропустить этот раздел и прочитать вторую и третью)

Примечание. В этой статье я использую книгу Введение в статистическое обучение в качестве справочного материала. Если вы больше заинтересованы в линейной регрессии или машинном обучении, я рекомендую вам взглянуть на это, это действительно того стоит.
Все графики и формулы были созданы мной.

1. Что такое линейная регрессия?

Линейная регрессия — это алгоритм машинного обучения, целью которого является сопоставление набора точек данных с использованием линейной модели (прямой линии в 2D), чтобы что впоследствии мы можем делать прогнозы или делать выводы о данных.

В задаче линейной регрессии у нас есть набор переменных-предикторов X₁, X₂, …, Xp и уникальная переменная ответа Y, и цель состоит в том, чтобы объяснить переменную ответа с предикторами, использующими линейную модель.

Разница между простой и множественной линейной регрессией заключается в количестве предикторов:
- 1 предиктор (X): простая линейная регрессия
- 2 или более предикторов (X₁, X₂, …, Xp): множественная линейная регрессия

Чтобы лучше понять это, давайте представим простой пример, в котором у нас есть только одна предикторная переменная (простая линейная регрессия).
Представьте, что мы собрали некоторые данные о результатах 100 студентов, изучающих данные, на экзамене по статистике. Мы изучаем оценку, полученную каждым учащимся по количеству часов, которые они потратили на обучение, и мы хотели бы провести прямую линию, которая лучше всего соответствует данным, чтобы мы могли определить существует ли связь между оценкой и часы обучения.

В этом сценарии предиктором X является часы обучения, а переменной ответа Y является оценка, полученная учащимся. strong>.
Поскольку у нас есть только 1 предиктор, наша линейная модель имеет следующую форму:

Теперь мы можем разработать простой регрессионный анализ и получить следующую строку:

Наконец, для β0 и β1 получены следующие результаты:
- β0 = 1,95361788
- β1 = 0,29338499

Это означает, что если мы ничего не изучаем, т.е. изучаем 0ч (Х=0), то наша средняя оценка будет 1,95361788.
И что за каждый час обучения наша оценка будет увеличиваться в среднем на 0,29338499 балла.

На данный момент мы находимся в состоянии извлечь некоторые дополнительные выводы о данных (см. следующий раздел), но я ограничусь их перечислением, поскольку они требуют других концепций и статистических инструментов линейной регрессии, которые выходят за рамки этой статьи

(Меня действительно раздражает, когда люди так говорят, потому что они как будто скрывают от вас информацию, но в противном случае статья была бы такой же объемной, как книга, а нам это не нравится. Если вас больше интересует Линейная регрессия. Я рекомендую вам прочитать Введение в статистическое обучение, которое я использую в качестве справочника для этой статьи, или вы просто можете подписаться на меня, чтобы узнать больше о статистике и науке о данных )

Зачем и когда использовать линейную регрессию?

Линейная регрессия не очень часто используется для прогнозирования, а скорее для создания выводов (получения полезной информации и выводов о данных), поскольку она предлагает негибкую подгонку.

Обратите внимание, что мы не заставляем линию проходить через точки (то, что в математике называется интерполяцией) — так как это невозможно сделать с одной прямой, — а ищем линию, которая проходит ближе всего к ним .

Однако линейная регрессия также может быть очень полезна при анализе данных. Среди выводов, которые мы можем извлечь с помощью линейной регрессии, мы можем найти следующие:

Найдите, существует ли связь между одной переменной (или группой переменных) и ответом, и подсчитайте, насколько сильна эта связь.
Вычислите влияние каждой переменной-предиктора на ответ и узнайте, какой из предикторов вносит наибольший вклад.
Выясните, является ли отношение линейным, и насколько точно мы можем делать будущие прогнозы ответа, используя линейную модель.
Узнайте, существует ли синергия (взаимодействие) между предикторами и как мы можем улучшить нашу линейную модель, чтобы делать более точные прогнозы.
Вычислите тренд данных.

2. Простая линейная регрессия

После не очень краткого введения в линейную регрессию (приношу свои извинения) пришло время объяснить истинную тему и цель этой статьи, ФОРМУЛЫ(обещаю короче и по делу)

Простая линейная регрессия используется, когда у нас есть только одна предикторная переменная X, которую мы хотим использовать для объяснения переменной ответа Y.

Но прежде чем начать генерировать случайные значения для β0 и β1, нам нужен метод выбора, чтобы решить, какая линия лучше, чем другие.

Так как же выбрать наиболее подходящую линию?RSS (остаточная сумма квадратов)

Чтобы выбрать наиболее подходящую линию, нам нужно установить подходящее измерение, которое скажет нам, насколько хорошо или плохо наша линия соответствует данным (измерения, которые измеряют производительность модели, называются функциями потерь)

В нашей задаче линейной регрессии хорошее подходящее измерение состоит в том, чтобы взять расстояние между предсказанным значением Ŷ с помощью линии подбора и истинным значением Y из наших данных, возвести результат в квадрат. так что мы получаем только положительные значения и вычисляем сумму для всех точек данных.

Это измерение называется Остаточная сумма квадратов (RSS) и математически выражается формулой:

Формула

Мы только что определили, как мы собираемся измерять, какая из линий лучше всего подходит (отлично!), но как нам перейти к простым и быстрым вычислительным формулам?

Цель: минимизировать функцию потерь RSS по параметрам β0 и β1 (т. е. найти β0 и β1, которые минимизируют RSS).

1. Разработка выражения:

2. Теперь, если мы возьмем частные производные по параметрам и приравняем их к нулю:

Получив таким образом следующую систему:

Примечание. Откуда мы знаем, что это минимум, а не максимум?
Интуитивно мы знаем, что пытаемся минимизировать функцию потерь, которая описывает, насколько хороша наша модель. Поэтому нет верхнего предела убытка, наша модель всегда может быть хуже и привести к большим убыткам, но есть нижний предел, где ошибка максимально близка к 0 и не может быть ниже (модель имеет свои ограничения, и потери не могут быть равны нулю)

Математически точка (β0,β1) называется стационарной точкой в многомерном исчислении, и мы можем классифицировать ее, вычислив вторые частные производные, проверить эту PDF [2].

Наконец, мы также знаем, что это глобальный минимум, а не локальный, потому что мы получили только одну точку (β0,β1) при изучении первых производных (система имеет единственное решение).

3. Чтобы решить систему, мы можем записать выражение в матричной форме:

И поэтому мы получаем окончательное уравнение для простой линейной регрессии

3. Множественная линейная регрессия

Множественная линейная регрессия — это расширение простой модели для более чем 1 предиктора. В этом случае у нас есть набор переменных-предикторов X₁, X₂,…, Xp, которые мы хотим использовать для объяснения переменной отклика Y.

Процедура такая же, как и в простой модели. Чтобы упростить математическую запись, я продолжу объяснять формулу для двух предикторов X₁ и X₂, но это та же процедура для большего количества предикторов (3,4, …)