Линейная регрессия - один из самых основных алгоритмов машинного обучения, который используется для прогнозирования реальных значений. Он включает использование одной или нескольких независимых переменных для прогнозирования зависимой переменной. Хотя это один из самых простых алгоритмов, с которым мы столкнемся, он чрезвычайно мощный и надежный по своей природе, что делает его важным инструментом для начинающих профессионалов в области данных.

В этом сообщении блога мы рассмотрим типы линейной регрессии, ее реализацию с использованием метода наименьших квадратов (OLS) и некоторые базовые допущения, сделанные с помощью моделей линейной регрессии. В этой публикации мы также будем ссылаться на пример прогнозирования зарплаты сотрудника на основе его опыта.

Типы линейной регрессии

Простая линейная регрессия

В простой модели линейной регрессии существует только одна независимая переменная, которая определяет зависимую переменную. Итак, в нашем примере с зарплатой и опытом независимая переменная - это опыт сотрудника, а зарплата - зависимая переменная.

В нашем простом уравнении линейной регрессии:

  • y - зависимая переменная
  • b₀ - это термин, связанный с предвзятостью, и
  • x₁ - независимая переменная, вес которой равен b₁.

Множественная линейная регрессия

Этот тип регрессии является просто продолжением простой линейной регрессии. Здесь наша зависимая переменная y прогнозируется с использованием двух или более независимых переменных как части набора входных характеристик. Проще говоря, если мы добавим дополнительные входные функции, такие как ежедневное рабочее время, возраст, должность и т. Д., В наш пример заработной платы и опыта, то мы получим модель множественной линейной регрессии.

Изучение основ

Итак, предположим, что мы наконец-то собрали некоторые данные, которые содержат опыт и зарплату ряда сотрудников. Чтобы лучше понять наши данные, мы строим их и получаем следующий график:

Основная идея линейной регрессии - подгонять прямую линию к нашим данным. Это можно сделать с помощью метода наименьших квадратов (OLS). В этом методе мы проводим линию через данные, измеряем расстояние от каждой точки до линии, возводим каждое расстояние в квадрат, а затем складываем их все. После долгих проб и ошибок мы смогли найти наиболее подходящий вариант. По сути, наиболее подходящая линия охватывает все наши точки данных, так что расстояние каждой точки данных от линии сводится к минимуму. Это, в свою очередь, минимизирует получаемую ошибку. Мы можем увидеть наиболее подходящую линию для наших данных на следующем графике:

Следующим шагом в нашем процессе является определение того, насколько хороша или полезна наша регрессионная модель, путем вычисления ее значения . Для этого мы сначала находим среднее значение опыта, вычисляем разницу между средним и значением в каждой точке данных, возводим его в квадрат, а затем складываем все эти значения. Мы называем это SS (среднее), то есть суммой квадратов вокруг среднего. Математически мы можем представить этот расчет следующим образом (где n - размер нашей выборки):

Вернемся к нашему исходному графику заработная плата против опыта, который показывает наиболее подходящую линию для наших данных. Как и раньше, мы вычисляем SS (соответствие), то есть сумму квадратов вокруг линии наилучшего соответствия:

В общем, мы можем рассматривать дисперсию некоторых данных в более абстрактной форме следующим образом:

Фактически, среди всех этих формул есть закономерность, на которую следует обратить внимание. Если мы присмотримся, то обнаружим, что значение SS (среднее) всегда больше, чем значение SS (соответствие). Это не должно вызывать удивления, учитывая тот факт, что SS (подгонка) отображает линию наилучшего соответствия, то есть минимизирует сумму квадратов. Таким образом, было бы уместно сказать, что значение R² может сказать нам, насколько вариации в заработной плате можно объяснить, принимая во внимание опыт сотрудника. Математически мы получаем следующее:

Следовательно, эту формулу также можно записать следующим образом, исключив n (размер выборки):

Значение R² модели находится между минус бесконечностью и 1. Мы можем сказать, что чем ближе наше значение к 1, тем лучше наши независимые переменные объясняют дисперсию зависимой переменной.

Например, предположим, что мы получили значение R² 0,75 для наших данных. Это означает, что при учете опыта сотрудника дисперсия сокращается на 75%. С другой стороны, мы можем сказать, что опыт сотрудника может объяснить 75% колебаний в заработной плате.

Примечание. Один важный факт, который следует учитывать при анализе значения R² вашей регрессионной модели, заключается в том, что оно всегда будет увеличиваться, если вы продолжите добавлять в свою модель больше функций. Так что, если вы когда-нибудь получите значение R² 0,95 или выше без каких-либо дополнительных действий, то вам, вероятно, следует отнестись к своим результатам с долей скепсиса.

Есть много других показателей для оценки наших регрессионных моделей, таких как Средняя абсолютная ошибка, Среднеквадратичная ошибка и Скорректированное значение R². Мы обсудим это подробно в другом сообщении блога.

Теперь мы получили значение R², которое нам кажется большим, но как мы узнаем, правильное ли это значение? Чтобы определить, является ли наше значение R² статистически значимым, нам нужно вычислить значение p. Значение p вычисляется с использованием так называемого F, как показано ниже:

Хотя уравнение сначала может показаться запутанным, числитель просто обозначает уменьшение дисперсии с учетом опыта, а знаменатель представляет собой изменение остатков (показано пунктирными линиями) на графике ниже:

Математически F рассчитывается по следующей формуле:

где

  • знаменатели (p_fit-p_mean) и (n-p_fit) представляют степени свободы
  • p_fit - количество параметров в подходящей строке.
  • p_mean - количество параметров в средней строке

По сути, числитель становится дисперсией, объясняемой любыми дополнительными параметрами, а знаменатель представляет собой сумму квадратов остатков после того, как мы находим линию наилучшего соответствия. Таким образом, если соответствие хорошее, тогда F оказывается действительно большим числом. Теперь, чтобы превратить это значение F в значение p, мы предпримем следующие шаги:

  1. Сгенерируйте набор случайных данных
  2. Рассчитайте среднее значение и SS (среднее значение)
  3. Рассчитайте подгонку и SS (подгонку)
  4. Подставьте все эти значения в уравнение, чтобы найти F
  5. Нанесите это значение на гистограмму
  6. Повторяйте много и много раз

Повторив этот процесс тысячи (или даже миллионы) раз, мы вычисляем значение F для нашей наилучшей линии. Затем значение p получается как количество более экстремальных значений, деленное на общее количество значений.

Например, если значение F для нашей наиболее подходящей линии равно 5 и у нас есть 6 экземпляров из 100 общих экземпляров, которые больше или равны 5, тогда наше p -значение будет 6 / 100 = 0,06

На самом деле, мы не часто следуем этому процессу для генерации значения p, поскольку он требует очень много времени. Вместо этого мы аппроксимируем гистограмму линией, используя F-распределения.

Допущения метода OLS

Теперь, когда мы узнали, как работает метод OLS, мы также должны знать, какие основные предположения сделаны в этом методе. Существует семь классических предположений МНК для линейной регрессии. Из них первые шесть необходимы для создания хорошей модели, тогда как последнее предположение в основном используется для анализа.

  1. Модель регрессии является линейной - это означает, что члены в модели либо постоянные, либо параметр, умноженный на независимую переменную, и наши модели ограничены общими уравнениями, которые мы обсуждали ранее.
  2. Термин ошибки имеет нулевую совокупность - Условия ошибки описывают изменение зависимой переменной, которое наши независимые переменные не могут объяснить. Мы хотим, чтобы в нашем термине ошибки оставалась только случайная ошибка, т.е. член ошибки должен быть непредсказуемым.
  3. Все независимые переменные не коррелированы с термином ошибки - если независимая переменная коррелирована с термином ошибки, мы можем использовать независимую переменную для прогнозирования члена ошибки. Это не должно быть верным для нашей регрессионной модели, потому что это нарушает представление о том, что член ошибки непредсказуем по своей природе. Это предположение часто называют экзогенностью.
  4. Наблюдения за термином ошибки некоррелированы - в наших терминах ошибок должна быть случайность, чтобы одно наблюдение за термином ошибки не предсказывало следующее наблюдение.
  5. Параметр ошибки имеет постоянную дисперсию - Дисперсия ошибок должна быть согласованной для всех наблюдений. Если дисперсия не изменяется для каждого наблюдения или диапазона наблюдений, это известно как гомоскедастичность, что желательно для нашей регрессионной модели. С другой стороны, гетероскедастичность снижает точность наших оценок линейной регрессии OLS.
  6. Никакая независимая переменная не является идеальной линейной функцией другой независимой переменной. Идеальная корреляция существует, когда две переменные имеют коэффициент корреляции Пирсона, равный +1 или -1. Это означает, что если мы увеличим одну переменную, тогда другая переменная также будет увеличиваться (когда корреляция равна +1), а если мы увеличим одну переменную, то другая переменная будет уменьшаться (когда корреляция равна -1). Обычный метод наименьших квадратов не может различить две переменные, если они полностью коррелированы, и это вызовет ошибку в нашей модели. Это предположение называется мультиколлинеарностью.
  7. Член ошибки имеет нормальное распределение - Хотя это не является обязательным условием, если оно выполнено, это может помочь нам создать надежные доверительные интервалы и интервалы прогнозирования. Это предположение также чрезвычайно полезно, если нам нужно вычислить p -значения для наших оценок коэффициентов.

Завершение…

В этом сообщении блога мы узнали о различных типах линейной регрессии и о том, как она реализуется с помощью обычного метода наименьших квадратов (OLS). Наряду с этим мы рассмотрели предположения, сделанные нашими регрессионными моделями при реализации линейной регрессии OLS.

Спасибо за чтение и ждите новых новостей!

Ресурсы: