Покрытие всех основ линейной регрессии

Для многих из нас путешествие в области науки о данных начинается с линейной регрессии. Я считаю, что линейная регрессия концептуально является одной из наиболее полных тем в науке о данных, поскольку она вводит такие понятия, как линейность, нелинейность, независимость функций, мультиколлинеарность, автокорреляция, многомерная нормальность, гомоскедастичность и т. Д., Которые это основы машинного обучения. Он также охватывает статистическую значимость, важность переменных, степень соответствия и регуляризацию, которая является основой области машинного обучения.

Если вы новичок в области науки о данных, этот блог поможет вам хорошо освоить линейную регрессию, а также многие другие фундаментальные основы. Если вы уже занимаетесь наукой о данных, пора пересмотреть темы и прояснить связанные с ними концепции. Имея эту мотивацию, давайте начнем наш путь к линейной регрессии.

Вы также можете просмотреть видеоконтент этой темы на канале DataTrek здесь. Полный плейлист из серии Линейная регрессия на Youtube-канале DataTrek доступен здесь.

Введение в линейную регрессию

Давайте разберемся с линейной регрессией на примере. Предположим, владелец магазина хочет спрогнозировать свои ежедневные продажи. Исходя из своих прошлых знаний, они выяснили, что переменные, влияющие на продажи, - это рекламные акции (предложения со скидками), день недели (будний или выходной) и погода (дождливая или солнечная).

Таким образом, линейная регрессия может использоваться в таких типах сценариев, где необходимо прогнозировать непрерывное значение с учетом различных факторов / характеристик. Он широко используется в

  • Прогнозирование (например, прогнозирование продаж)
  • Прогнозирование цен на жилье (с учетом размера / площади, населенного пункта, города, района и т. Д.)
  • Расчет отношений между параметрами в биологических или эконометрических системах (или других системах)

Линейная регрессия - это линейная модель, например модель, которая предполагает линейную связь между входными переменными или предикторами (X) и ответной или выходной переменной (y).

Уравнение линейной регрессии записывается следующим образом.

Y называется переменной ответа. Ее также называют зависимой переменной.

x - это особенности. Их также называют независимыми переменными, предикторами или независимыми переменными.

ε - это случайная ошибка или шум, который модель не может объяснить.

В случае вышеприведенного примера продаж в магазине уравнение линейной регрессии записывается следующим образом.

β - это коэффициенты, которые мы оцениваем или решаем в модели линейной регрессии.

Терминологии

Когда есть только одна входная переменная (x), метод известен как простая линейная регрессия, а при наличии более одной входной переменной метод называется множественная линейная регрессия .

В случае простой линейной регрессии разделительной границей является линия, а в случае множественной линейной регрессии разделительной границей является плоскость / гиперплоскость.

Решение линейной регрессии для оценки коэффициентов

Обычный метод наименьших квадратов (OLS) - это метод, используемый для оценки неизвестных параметров в модели линейной регрессии с целью минимизировать сумму квадратов разностей между переменной отклика (y) и прогнозируемыми выходными данными по всем выборкам в наборе данных.

Цель линейной регрессии обыкновенных наименьших квадратов (OLS) - найти линию / гиперплоскость (красная линия на рисунке выше), которая минимизирует вертикальные смещения (обозначенные зелеными линиями на рисунке выше).

После того, как мы поняли функцию потерь, которая представляет собой сумму квадратов ошибок (SSE) или среднеквадратичную ошибку (MSE) между целевой переменной (y) и нашим прогнозируемым выходом для линейной регрессии, давайте углубимся в методы ее минимизации и найдем коэффициенты.

Оценка коэффициентов

Коэффициенты линейной регрессии можно оценить с помощью двух типов решений.

  1. Аналитическое решение / Решение в закрытой форме. Подход к аналитическому решению заключается в том, чтобы сформулировать проблему в решаемой форме и вычислить точное решение за один раз.
  2. Численное решение: численное решение делает предположения о решении на нескольких итерациях и продолжает проверять, достаточно ли решение соответствует критерию остановки.

Аналитический раствор / раствор в закрытой форме

Основная суть аналитического решения уравнения линейной регрессии состоит в том, чтобы найти первую производную функции потерь и приравнять ее к 0, чтобы найти точку экстремума, которая оказывается минимумами. Для линейной регрессии функция потерь выпуклая, поэтому существуют глобальные минимумы. Все операции происходят в матричной / векторной форме.

  • Решение в закрытой форме может быть предпочтительным для небольших наборов данных, если вычисление дорогостоящей обратной матрицы не вызывает беспокойства.
  • Многие пакеты также вместо этого вычисляют псевдообратное значение, поскольку оно более стабильно.

Численное решение

Численное решение использует алгоритм градиентного спуска, чтобы прийти к решению. Градиентный спуск - это алгоритм оптимизации первого порядка, который минимизирует функцию стоимости путем многократного перехода к наиболее крутому спуску. Веса модели обновляются после каждой эпохи.

Прогнозы с помощью линейной регрессии

С помощью описанных выше методов мы можем решить линейную регрессию и оценить коэффициенты.

Мы обучили модель линейной регрессии на данных о продажах за 1 год для нашей примерной задачи о продажах в магазине. Вот полученные коэффициенты.

β0 = 2000

β1 = 500

β2 = 250

β3 = -400 (отрицательное воздействие)

Мы видим, что средний объем продаж составляет около 2000 единиц. Акции и выходные увеличивают продажи на 500 и 250 единиц, в то время как дождливая погода отрицательно сказывается на продажах.

Мы также можем использовать полученную информацию для прогнозирования продаж в неизвестный день. Например, спрогнозируйте распродажи в воскресенье с солнечной погодой и без рекламных акций.

Продажи = 2000 + 500 * 0 + 250 * 1 + (-400) * 0 = 2250 единиц

Предположения линейной регрессии

Есть пять основных допущений линейной регрессии. Эти предположения должны быть выполнены, чтобы получить статистически значимую модель.

Предположение 1: линейная связь

Линейная регрессия требует, чтобы отношения между независимыми (предикторами) и зависимыми (отклик) переменными были линейными. Гипотезу линейности лучше всего проверить с помощью диаграмм рассеяния.

Допущение 2: Нет или мало мультиколлинеарности

Линейная регрессия предполагает, что все функции или X-переменные независимы друг от друга, без мультиколлинеарности или с незначительной мультиколлинеарностью. Мультиколлинеарность - это состояние очень высокой взаимной корреляции или взаимосвязи между независимыми переменными.

Недостатки мультиколлинеарности:

  1. Коэффициент независимой переменной может быть ненадежным, поскольку независимость предикторов нарушается из-за корреляции.
  2. Мультиколлинеарность создает помехи в данных и снижает статистическую мощность регрессионной модели.

Пример: попытка предсказать рост человека с указанием возраста в годах и возраста в неделях с момента рождения в качестве предикторов. Два предиктора сильно коррелированы, и только одного из них достаточно.

Обнаружение и устранение мультиколлинеарности:

  1. Матрица корреляции: вычисляет двумерную корреляцию Пирсона для всех независимых переменных.
  2. Диаграммы разброса. Визуальный анализ диаграмм разброса между независимыми объектами может выявить любые отношения, существующие между ними.
  3. Допуск: каждая функция регрессирует по отношению ко всем остальным функциям. Допуск определяется как T = 1-R², где R² - коэффициент детерминации. T ‹0,1 свидетельствует о наличии мультиколлинеарности.
  4. Коэффициент инфляции дисперсии (VIF): Коэффициент инфляции дисперсии - это величина, обратная толерантности. ВИФ = 1 / Т. VIF ›5 свидетельствует о высокой мультиколлинеарности.
  5. Методы преобразования функций, такие как Анализ главных компонентов (PCA), могут сохранять всю информацию о многомерных данных в меньших измерениях без какой-либо коллинеарности.

Предположение 3: гомоскедастичность

Гомоскедастичность (что означает одинаковая дисперсия) предполагает, что остатки случайным образом распределены по линии / плоскости / гиперплоскости регрессии и не следуют никакому шаблону. Напротив, гетероскедастичность - это систематическое изменение разброса остатков.

Проверка гомоскедастичности / гетероскедастичности. Остаточные графики - хороший способ проверить, являются ли данные гомоскедастичными или гетероскедастичными. Графики остатков отображают остаточные значения по оси Y и аппроксимированные значения по оси X.

Проблемы из-за гетероскедастичности

  1. Если в остатках есть закономерности, значит, у модели есть проблема, и она не может полностью объяснить закономерности данных. Следовательно, значения коэффициентов ненадежны.
  2. Гетероскедастичность имеет тенденцию давать более низкие значения p, чем ожидаемые, что приводит к снижению статистической значимости модели.

Значение p каждой функции проверяет нулевое предположение о том, что коэффициент не влияет на значение, равное нулю.

Низкое значение p (‹0,05) означает, что вы можете отклонить нулевую гипотезу.

Возможное решение, которое можно попробовать исправить

  1. Преобразование зависимой переменной может снизить интенсивность гетероскедастичности.
  2. Дополнительные функции, которые могут лучше объяснить расхождения в данных.

Предположение 4: многомерная нормальность

Линейный регрессионный анализ требует, чтобы остатки были нормально распределены. Нормальность остатков также предполагает, что другие переменные также не сильно отклоняются от нормы.

Зачем нужна многомерная нормальность? Остатки не должны содержать экстремальных выбросов, поскольку линейная регрессия чувствительна к эффектам выбросов. Линейная регрессия использует метод наименьших квадратов в качестве критерия выбора наилучшего соответствия. Соответствующий кандидат получает «штраф» на основании суммы квадратов остатков, а выбросы вносят вклад в большие квадраты остатков. Таким образом, остатки должны соответствовать нормальному распределению, поскольку для нормального распределения 68% данных находятся в пределах 1 стандартного отклонения, 95% - в пределах 2 стандартных отклонений и 99,7% данных - в пределах 3 стандартных отклонений, что снижает вероятность экстремальных выбросов.

Нормальность может быть проверена с помощью QQ-графиков или теста Колмогорова-Смирнова.

Предположение 5: нет или мало автокорреляции

Автокорреляция происходит, когда остатки не независимы друг от друга. Наличие корреляции по погрешности значительно снижает точность модели.

В задачах типа временных рядов последовательные значения (относительно времени) могут быть ближе друг к другу. Предположение об отсутствии или незначительной автокорреляции предполагает, что даже если фактические значения ближе друг к другу по времени, остатки должны быть независимыми и не следовать каким-либо закономерностям. Тест Дарбина Ватсона можно использовать для проверки наличия автокорреляции в остатках.

Возможные способы уменьшения автокорреляции

  1. Обнаружение правильных функций
  2. Переменные лага
  3. Интеллектуальная разработка функций, таких как неделя, месяц, циклические функции

Переменная важность

Переменная важность

Переменная / характеристика, которая больше всего влияет на зависимую переменную / ответную переменную, может быть названа наиболее важной переменной. Цель здесь - найти ранжирование функций по важности.

Возможные ошибки, которых следует избегать при поиске переменной важности

  1. Не сравнивайте коэффициенты регулярной регрессии при определении важности переменных. Например, если мы обучаем модели для одного и того же набора данных, используя вес как функцию, и используем граммы в одной модели и килограммы в другой, весовой коэффициент изменяется в тысячу раз, хотя базовая подгонка модели остается неизменной.
  2. Не связывайте p-значения для определения важности переменных. Значение p указывает, должна ли функция быть частью модели или нет, но не то, какой будет ее вклад.

Переменная важность: правильный путь

  1. Сравните коэффициенты стандартизированной модели линейной регрессии: мы можем подогнать регрессионную модель, используя стандартизованные независимые переменные (стандартное отклонение = 1), и сравнить стандартизованные коэффициенты. Поскольку все переменные используют одну и ту же шкалу, их можно сравнивать напрямую.
  2. Рассмотрим изменение в R-квадрате для последней переменной, добавленной в модель: когда независимая переменная является последней, введенной в модель, соответствующее изменение в R-квадрате представляет собой улучшение качества совпадения, которое обусловлено исключительно к последней добавленной переменной. Это также называется прямым выбором.

Доброта подгонки

R-квадрат как мера согласия

R-квадрат, также известный как коэффициент детерминации, является статистической мерой близости данных к подобранной линии / плоскости регрессии.

В лучшем случае смоделированные значения точно соответствуют наблюдаемым, в результате чего SS_res = 0 и R² = 1. Базовая модель, которая всегда предсказывает ȳ, будет иметь R² = 0.

Ключевые ограничения R-квадрат

  1. R-квадрат недостаточен, чтобы определить, искажены ли оценки коэффициентов и прогнозы. Хороший способ проверить это - оценить остаточные участки.
  2. R-квадрат увеличивается каждый раз при добавлении в модель независимой переменной.

Являются ли низкие значения R-квадрата плохими по своей сути?

Нет! Очень хорошо иметь низкие значения R-квадрата в некоторых сложных задачах, например, для прогнозирования человеческого поведения, например, психологии, которая является сложной задачей.

Насколько хороши высокие значения R-квадрата?

Нет, не всегда. Высокий R-квадрат не обязательно указывает на правильную подгонку модели. Это может быть слишком много для тренировочного набора.

Альтернативами преодоления ограничений R-квадрата являются Скорректированный R-квадрат и Прогнозируемый R-квадрат.

Скорректированный R-квадрат

  1. Скорректированный R-квадрат анализирует прогностическую способность регрессионных моделей с различным количеством предикторов.
  2. Скорректированный R-квадрат будет увеличиваться только в том случае, если добавление новой функции улучшит модель больше, чем можно было бы ожидать случайным образом.
  3. Он уменьшается, когда предсказатель случайным образом улучшает модель меньше, чем ожидалось.

где p - общее количество объясняющих переменных в модели (не включая постоянный член), а n - размер выборки.

Прогнозируемый R-квадрат

  1. Прогнозируемый R-квадрат указывает, в какой степени регрессионная модель предсказывает ответы на невидимые данные или новые наблюдения.
  2. Вычисление R-квадрата на проверочном наборе даст правильную картину производительности модели.

Варианты линейной регрессии

Полиномиальная регрессия

Полиномиальная регрессия - это тип регрессионного анализа, в котором взаимосвязь между переменной-предиктором X и переменной отклика y моделируется как полином n-й степени в X.

Полиномиальная регрессия может фиксировать нелинейность данных, но способ оценки параметров остается линейным. Вот почему полиномиальная регрессия является частным случаем множественной линейной регрессии.

Полиномиальная регрессия может быть полезна в таких случаях, как, скажем, продажи автомобилей в единицах показывают зависимость от 3-го показателя индекса развития города из прошлых данных.

Ключевые указания о полиномиальной регрессии

  1. Полиномиальная регрессия может моделировать нелинейно разделяемые данные, чего не может линейная регрессия, поскольку она гораздо более гибкая и может моделировать некоторые довольно сложные отношения.
  2. Это дает полный контроль над моделированием переменных признаков (какой показатель установить).
  3. Но с большой мощностью приходит большая ответственность, поэтому она требует тщательного проектирования. Знание предметной области может помочь выбрать лучших экспонентов.
  4. Он подвержен переобучению, если экспоненты выбраны неправильно.

Другие причины, по которым линейная регрессия может потерпеть неудачу

  1. Наличие мультиколлинеарности: мультиколлинеарность - это явление, когда независимая (ые) переменная (ы) может быть выражена как линейная комбинация других независимых переменных.
  2. Где независимых переменных больше, чем наблюдений. Когда это происходит, оценки OLS недействительны в основном потому, что у наших оценок есть бесконечные решения.

Как справиться / минимизировать мультиколлинеарность?

  1. Выбор функции
  2. Методы уменьшения размерности, такие как UMAP, t-Sne, автоэнкодеры, матричная факторизация и PCA
  3. Регуляризация

Регуляризация и регуляризованная регрессия

Регуляризация - это процесс, который включает введение дополнительной информации во избежание переобучения. Один из способов регуляризации - добавить ограничение / штраф к функции потерь.

Регуляризованный убыток = функция убытка + ограничение (штраф)

Введение ограничений может увеличить смещение на небольшую величину, но значительно снижает дисперсию в соотношении смещения и дисперсии.

Три наиболее популярных формы ограничений, используемых для регуляризации линейной регрессии, - это гребневая регрессия, лассо и эластичная сеть.

Риджская регрессия

Гребневая регрессия также называется регулированием L2. Он добавляет ограничение как линейную функцию квадратных коэффициентов.

Ключевые моменты о гребневой регрессии

  1. Менее важные функции сжимаются из-за ограничений, избегайте переобучения.
  2. Аналитическое / закрытое решение существует.
  3. Это сужает значение коэффициентов, но не до нуля.

Лассо-регрессия

Лассо также известно как регуляризация L1. В лассо штраф взимается с абсолютных весовых коэффициентов.

Ключевые моменты о регрессии лассо

  1. Лассо заставляет некоторые коэффициенты равняться нулю и приводит к более простой модели. Это свойство также называется разреженностью или свойством выбора встроенных функций.
  2. L1-норма не имеет аналитического (замкнутого) решения, как L2-норма.

Эластичная чистая регрессия

Эластичная сетевая регрессия - это комбинация регуляризации L1 и регуляризации L2. Это может уменьшить коэффициенты, а также исключить некоторые из несущественных коэффициентов.

В качестве последнего шага, чтобы подвести итог всему изучению линейной регрессии, мы можем выполнить практическое упражнение, начав с проверки того, выполняются ли предположения линейной регрессии или нет, до подбора модели и определения важности и степени соответствия характеристик. В Блокноте я суммировал все эти важные аспекты / тесты линейной регрессии в Рекламном наборе данных. Не стесняйтесь редактировать записную книжку и добавлять больше специй к анализу и обучению.



Заключение

В этом сообщении в блоге мы подробно рассмотрели линейную регрессию. Мы рассмотрели аналитические и численные решения линейной регрессии, предположения о линейной регрессии, важность переменных, степень согласия и вариации линейной регрессии. Мы также применили на практике все, что произошло с Рекламным набором данных.

Если у вас есть какие-либо сомнения или вопросы, свяжитесь со мной. Мне будет интересно узнать, есть ли у вас какие-то интересные проблемы, которые нужно решить, и вам нужны рекомендации.

Мой канал Youtube для получения дополнительной информации:

Об авторе:

Абхишек Мунголи - опытный специалист по данным с опытом работы в области машинного обучения и компьютерных наук, охватывающий различные области и способ решения проблем. Отлично разбирался в различных задачах машинного обучения и оптимизации, характерных для розничной торговли. С энтузиазмом относятся к масштабному внедрению моделей машинного обучения и обмену знаниями через блоги, выступления, встречи, публикации и т. Д.

Мой мотив всегда состоит в том, чтобы упростить самые сложные вещи до их наиболее упрощенной версии. Я люблю решение проблем, науку о данных, разработку продуктов и масштабируемые решения. Я люблю исследовать новые места и заниматься спортом в свободное время. Следуйте за мной в Medium, Linkedin или Instagram и просматривайте мои предыдущие сообщения. Приветствую отзывы и конструктивную критику. Некоторые из моих блогов -