Расшифровка:

Простая линейная регрессия

Формулы и расчеты

Мы все знаем о самом простом уравнении в модели статистики и машинного обучения; уравнение линейной регрессии. В этой статье я стремлюсь внести ясность в то, как формула может быть рассчитана вручную для линейного уравнения. Вот формула:

y = mx + c,где m — наклон, а c — точка пересечения с осью y.

Сначала рассмотрим расчет простого линейного уравнения с 1 переменной на следующем примере возраста и веса школьников. Здесь Возраст — это предиктор (X), а Вес — (y), который должен быть предсказан на основе Возраста.

Примечание. Для простой линейной регрессии переменные X и Y должны быть числовыми по своей природе.

Мы не будем рассматривать распределение данных здесь для понимания расчета, поэтому давайте быстро перейдем к работе. Для этого нам потребуется следующая информация:

n — Количество записей

ΣX — сумма X

Σy — сумма у

Σxy — сумма X*y

Σx2 — сумма X в квадрате

Σy2 — сумма y в квадрате

Теперь мы найдем m, который представляет собой наклон линии, также известный как коэффициент. Это просто означает, что при единичном изменении x значение y изменится на m. Это показывает корреляцию между X и y.

Как только мы найдем m, мы вычислим значение c, которое является постоянным значением на точке пересечения с осью y. Это означает, что даже если в уравнении нет X, можно достичь минимума c по оси y. Например, если мы пытаемся найти линейную зависимость между количеством лет опыта и зарплатой, минимальная зарплата, которую предлагает компания, несмотря на многолетний опыт, будет постоянным значением c.

Обратите внимание: эти утверждения не всегда практически верны во всех случаях, но логика остается верной. Значение c в некоторых случаях также может быть отрицательным, и его не следует путать с минимальным значением y при отсутствии на картинке независимых переменных.

Точно так же значение m также может быть отрицательным значением, что просто означает отрицательную корреляцию между X и y. С каждой единицей увеличения X y уменьшается на m.

Чтобы вычислить наклон/коэффициент m :

Таким образом, наше значение для m = 0,21 после округления. Теперь мы вычислим значение c, используя среднее значение X как X̄ и y как ȳ, и вычислим по формуле –

c = ȳ — m*X̄

Теперь у нас есть уравнение для этой линии:

y = 0.21*X + 49.27

Скажем, для заданного возраста 15 лет нам нужно рассчитать вес, который мы просто вычисляем в приведенном выше уравнении:

Давайте быстро подтвердим это, используя встроенную функцию линейной регрессии из библиотеки sklearn.

Мы видим, что результаты точно такие же, как и при расчете вручную.

Резюме:

В этой статье мы рассмотрели расчет простого уравнения линейной регрессии только с 1 зависимой переменной. m — наклон линии, а c — общая константа.

В следующей статье мы рассмотрим расчет для множественного линейного уравнения.

Это первая статья из серии, которую я пытаюсь сделать, под названием «Расшифровка». Моя идея в этой серии состоит в том, чтобы понять формулы самых основных концепций машинного обучения. В следующий раз, когда вы их примените, у вас определенно будет лучшее представление о том, что происходит в бэкенде.

Любая обратная связь приветствуется. Дайте мне хлопок, если вам понравилась эта статья.