Расшифровка:
Простая линейная регрессия
Формулы и расчеты
Мы все знаем о самом простом уравнении в модели статистики и машинного обучения; уравнение линейной регрессии. В этой статье я стремлюсь внести ясность в то, как формула может быть рассчитана вручную для линейного уравнения. Вот формула:
y = mx + c,где m — наклон, а c — точка пересечения с осью y.
Сначала рассмотрим расчет простого линейного уравнения с 1 переменной на следующем примере возраста и веса школьников. Здесь Возраст — это предиктор (X), а Вес — (y), который должен быть предсказан на основе Возраста.
Примечание. Для простой линейной регрессии переменные X и Y должны быть числовыми по своей природе.
Мы не будем рассматривать распределение данных здесь для понимания расчета, поэтому давайте быстро перейдем к работе. Для этого нам потребуется следующая информация:
n — Количество записей
ΣX — сумма X
Σy — сумма у
Σxy — сумма X*y
Σx2 — сумма X в квадрате
Σy2 — сумма y в квадрате
Теперь мы найдем m, который представляет собой наклон линии, также известный как коэффициент. Это просто означает, что при единичном изменении x значение y изменится на m. Это показывает корреляцию между X и y.
Как только мы найдем m, мы вычислим значение c, которое является постоянным значением на точке пересечения с осью y. Это означает, что даже если в уравнении нет X, можно достичь минимума c по оси y. Например, если мы пытаемся найти линейную зависимость между количеством лет опыта и зарплатой, минимальная зарплата, которую предлагает компания, несмотря на многолетний опыт, будет постоянным значением c.
Обратите внимание: эти утверждения не всегда практически верны во всех случаях, но логика остается верной. Значение c в некоторых случаях также может быть отрицательным, и его не следует путать с минимальным значением y при отсутствии на картинке независимых переменных.
Точно так же значение m также может быть отрицательным значением, что просто означает отрицательную корреляцию между X и y. С каждой единицей увеличения X y уменьшается на m.
Чтобы вычислить наклон/коэффициент m :
Таким образом, наше значение для m = 0,21 после округления. Теперь мы вычислим значение c, используя среднее значение X как X̄ и y как ȳ, и вычислим по формуле –
c = ȳ — m*X̄
Теперь у нас есть уравнение для этой линии:
y = 0.21*X + 49.27
Скажем, для заданного возраста 15 лет нам нужно рассчитать вес, который мы просто вычисляем в приведенном выше уравнении:
Давайте быстро подтвердим это, используя встроенную функцию линейной регрессии из библиотеки sklearn.
Мы видим, что результаты точно такие же, как и при расчете вручную.
Резюме:
В этой статье мы рассмотрели расчет простого уравнения линейной регрессии только с 1 зависимой переменной. m — наклон линии, а c — общая константа.
В следующей статье мы рассмотрим расчет для множественного линейного уравнения.
Это первая статья из серии, которую я пытаюсь сделать, под названием «Расшифровка». Моя идея в этой серии состоит в том, чтобы понять формулы самых основных концепций машинного обучения. В следующий раз, когда вы их примените, у вас определенно будет лучшее представление о том, что происходит в бэкенде.
Любая обратная связь приветствуется. Дайте мне хлопок, если вам понравилась эта статья.