Чтобы понять принцип работы Линейной регрессии, представьте, как бы вы расположили случайные бревна в порядке возрастания их веса. Есть улов; однако – нельзя взвешивать каждое бревно. Вы должны угадать его вес, просто взглянув на высоту и обхват бревна (визуальный анализ) и расположив их, используя комбинацию этих видимых параметров. Вот на что похожа линейная регрессия в машинном обучении.

В этом процессе устанавливается связь между независимыми и зависимыми переменными путем подгонки их к линии. Эта линия известна как линия регрессии и представлена ​​линейным уравнением Y = a * X + b.

В этом уравнении:

Y - зависимая переменная

а – наклон

X – Независимая переменная

б – перехват

Коэффициенты a и b получаются путем минимизации суммы квадратов разности расстояний между точками данных и линией регрессии.

Линейную регрессию можно разделить на два типа алгоритма:

  • Простая линейная регрессия:
    Если для прогнозирования значения числовой зависимой переменной используется одна независимая переменная, то такой алгоритм линейной регрессии называется простой линейной регрессией.
  • Множественная линейная регрессия:
    Если для прогнозирования значения числовой зависимой переменной используется более одной независимой переменной, то такой алгоритм линейной регрессии называется множественной линейной регрессией.

Линия линейной регрессии

линейная линия, показывающая взаимосвязь между зависимой и независимой переменными, называется линией регрессии. Линия регрессии может отображать два типа отношений:

Положительная линейная зависимость:
Если зависимая переменная увеличивается по оси Y, а независимая переменная увеличивается по оси X, то такая связь называется положительной линейной зависимостью.

Отрицательная линейная зависимость:
Если зависимая переменная уменьшается по оси Y, а независимая переменная увеличивается по оси X, то такая связь называется отрицательной линейной зависимостью.

Линия наилучшего соответствия

При работе с линейной регрессией наша главная цель — найти линию наилучшего соответствия, которая означает, что ошибка между прогнозируемыми значениями и фактическими значениями должна быть минимизирована. Линия наилучшего соответствия будет иметь наименьшую ошибку.

Различные значения весов или коэффициентов линий (a0, a1) дают разные линии регрессии, поэтому нам нужно рассчитать наилучшие значения для a0 и a1, чтобы найти наилучшую линию соответствия, поэтому для расчета этого мы используем функцию стоимости.

Функция стоимости

  • Различные значения весов или коэффициентов линий (a0, a1) дают разные линии регрессии, а функция стоимости используется для оценки значений коэффициента для линии наилучшего соответствия.
  • Функция стоимости оптимизирует коэффициенты или веса регрессии. Он измеряет, как работает модель линейной регрессии.
  • Мы можем использовать функцию стоимости, чтобы найти точность функции сопоставления, которая сопоставляет входную переменную с выходной переменной. Эта функция сопоставления также известна как функция гипотезы.
  • Для линейной регрессии мы используем функцию стоимости среднеквадратичной ошибки (MSE), которая представляет собой среднее значение квадрата ошибки между прогнозируемыми и фактическими значениями. Это можно записать как:

N = общее количество наблюдений
Yi = фактическое значение
(a1xi+a0) = прогнозируемое значение.

Остатки:

Расстояние между фактическим значением и прогнозируемыми значениями называется остатком. Если наблюдаемые точки находятся далеко от линии регрессии, то невязка будет высокой, и поэтому функция стоимости будет высокой. Если точки разброса близки к линии регрессии, то невязка будет небольшой и, следовательно, функция стоимости.

Градиентный спуск

  • Градиентный спуск используется для минимизации MSE путем вычисления градиента функции стоимости.
  • Модель регрессии использует градиентный спуск для обновления коэффициентов линии за счет уменьшения функции стоимости.
  • Это делается путем случайного выбора значений коэффициента, а затем итеративного обновления значений для достижения функции минимальной стоимости.

Производительность модели

Качество подгонки определяет, насколько линия регрессии соответствует набору наблюдений. Процесс поиска наилучшей модели из множества моделей называется оптимизацией.