Линейная регрессия — один из самых основных и широко используемых методов машинного обучения. Это статистический метод для выполнения прогностического анализа. Линейная регрессия прогнозирует непрерывные/реальные или количественные переменные, такие как продажи, зарплата, возраст, цена продукта и так далее.

Алгоритм линейной регрессии изображает линейную связь между зависимой (y) переменной и одной или несколькими независимыми (y) переменными, отсюда и название. Поскольку линейная регрессия демонстрирует линейную зависимость, она определяет, как значение зависимой переменной изменяется в зависимости от значения независимой переменной.

Модель линейной регрессии создает наклонную прямую линию, которая представляет взаимосвязь между переменными.

Рассмотрите следующее изображение:

Линейную регрессию можно представить математически как:

Типы линейной регрессии

Алгоритмы линейной регрессии подразделяются на два типа:

  • Простая линейная регрессия. Алгоритм линейной регрессии называется простой линейной регрессией, если он использует одну независимую переменную для прогнозирования значения числовой зависимой переменной.
  • Множественная линейная регрессия. Алгоритм линейной регрессии называется множественной линейной регрессией, если он использует более одной независимой переменной для прогнозирования значения числовой зависимой переменной.

Линия линейной регрессии

Линия регрессии — это линейная линия, отображающая взаимосвязь между зависимой и независимой переменными. Линия регрессии может отображать два типа отношений:

  • Положительная линейная зависимость. Положительная линейная зависимость существует, когда зависимая переменная увеличивается по оси Y, а независимая переменная увеличивается по оси X.
  • Отрицательная линейная зависимость. Отрицательная линейная зависимость существует, когда зависимая переменная уменьшается по оси Y, а независимая переменная увеличивается по оси X.

Поиск наиболее подходящей линии

При работе с линейной регрессией наша главная цель — найти наилучшую линию соответствия, что означает минимизацию ошибки между прогнозируемыми и фактическими значениями. Наиболее подходящая линия будет иметь наименьшую неточность.

Различные веса или коэффициенты линий (a0, a1) дают разные линии регрессии, поэтому нам нужно вычислить наилучшие значения для a0 и a1, чтобы получить наилучшую линию соответствия, поэтому мы используем функцию стоимости для расчета этого.

  • Функция стоимости используется для оценки значений коэффициентов для линии наилучшего соответствия на основе различных значений весов или коэффициентов линий (a0, a1).
  • Функция стоимости используется для максимизации коэффициентов или весов регрессии. Он оценивает производительность модели линейной регрессии.
  • Функцию стоимости можно использовать для определения правильности функции отображения, которая отображает входную переменную в выходную переменную. Эту функцию отображения часто называют функцией гипотезы.
  • Мы используем функцию стоимости Среднеквадратичная ошибка (MSE) для линейной регрессии, которая представляет собой среднее квадратов ошибок между прогнозируемыми и фактическими значениями.

Производительность модели

Качество подгонки определяет, насколько хорошо линия регрессии соответствует набору наблюдений. Процесс выбора наилучшей модели из набора моделей называется оптимизацией. Это можно сделать, используя следующий метод:

Метод R-квадрата:

  • R-квадрат — это статистический подход для расчета согласия.
  • Он оценивает силу связи между зависимой и независимой переменными.
  • Высокое значение R-квадрата указывает на небольшое расхождение между прогнозируемыми и фактическими значениями, что указывает на хорошую модель.
  • Он также известен как коэффициент детерминации или, в случае множественной регрессии, коэффициент множественной детерминации.

Предположения линейной регрессии

Некоторые ключевые допущения линейной регрессии перечислены ниже.

  • Линейная связь между характеристиками и целью. Линейная регрессия предполагает линейную связь между зависимыми и независимыми переменными.
  • Мультиколлинеарность между признаками незначительна или отсутствует. Мультиколлинеарность означает высокую степень корреляции между независимыми переменными. Из-за мультиколлинеарности определение истинной связи между предикторами и целевыми переменными может быть сложной задачей. Или, другими словами, трудно установить, какая предикторная переменная влияет на целевую переменную, а какая нет. В результате модель предполагает минимальную мультиколлинеарность или отсутствие мультиколлинеарности между признаками или независимыми переменными.
  • Допущение гомоскедастичности. Когда член ошибки одинаков для всех значений независимых переменных, это называется гомоскедастичностью. При гомоскедастичности не должно быть заметного распределения данных по шаблону на диаграмме рассеяния.
  • Нормальное распределение членов ошибки.Линейная регрессия предполагает, что член ошибки будет следовать нормальному шаблону распределения. Если члены ошибок не распределены нормально, доверительные интервалы станут либо слишком большими, либо слишком узкими, что сделает определение коэффициентов проблематичным.
  • Отсутствие автокорреляции.Модель линейной регрессии не предполагает автокорреляции с точки зрения ошибки. Если есть какая-либо корреляция в члене ошибки, точность модели будет значительно снижена. При наличии зависимости между остаточными ошибками возникает автокорреляция.

Заключение

Многие профессионалы надеются получить опыт в быстро развивающейся области машинного обучения и искусственного интеллекта, чтобы сделать следующий большой шаг в своей карьере.

Если вы хотите освоить основы машинного обучения, курс магистратуры по науке о данных и машинному обучению от Tutort Academy — хорошее место для начала. Курс охватывает темы машинного обучения, начиная от основ и заканчивая продвинутыми, такими как регрессия, классификация и моделирование временных рядов.

Поднимите свою профессию на новый уровень, получив сертификат сегодня!