Линейная регрессия

Линейная регрессия описывает отношения между зависимой переменной и независимой переменной. Думайте об этом как о переменной X и переменной Y.

Каковы некоторые предположения модели линейной регрессии?

Связь между двумя переменными линейна.

Все переменные многомерные нормальные.

Между зависимыми переменными не так много мультиколлинеарности. Хороший способ проверить это - инфляция дисперсии.

В данных практически отсутствует автокорреляция. Если вы не знакомы с автокорреляцией, автокорреляция возникает, когда остатки переменных в модели не независимы друг от друга.

Есть гомоскедастичность. То есть размер ошибки не зависит от размеров независимых переменных. Ошибка существенно не увеличивается, если ваши переменные становятся больше или меньше.

Остатки линейной регрессии должны нормально распределяться вокруг среднего значения 0.

Какие есть подходы к решению этой проблемы?

Мы хотим найти строку, которая лучше всего отражает суть предоставленных данных. Почему? В контексте машинного обучения мы хотим найти линию, которая предсказывает значения Y на основе значений X. Двумя переменными для измерения эффективности вашей модели являются смещение и дисперсия.

Смещение - ошибка или разница между предоставленными точками и точками, полученными на вашей линии в тренировочном наборе.

Дисперсия - ошибка от чувствительности к небольшим колебаниям обучающей выборки.

Недостаточная модель

Мы можем найти линию, которая фиксирует общее направление, но не фиксирует многие точки. Поскольку он плохо фиксирует многие точки, он имеет большое смещение или большую ошибку. Поскольку он не захватывает многие точки на графике, он также имеет низкую дисперсию. Это можно было бы назвать моделью недостаточной подгонки.

Модель подходящего размера

Мы можем найти линию, которая отражает общее направление точек, но не может охватить все точки на графике. Эта модель подошла бы хорошо.

Модель переобучения

Наконец, мы можем найти линию, которая фиксирует каждую точку на графике. Это можно было бы назвать моделью переобучения.

Ниже приведены хорошие изображения, описывающие различия в моделях.

Компромисс смещения и отклонения

Эта ситуация выше описывает компромисс смещения и дисперсии. Смещение измеряет ошибку между тем, что фиксирует модель, и тем, что показывают доступные данные. Дисперсия - это ошибка от чувствительности к небольшим колебаниям имеющихся данных. То есть модель с высокой дисперсией эффективно улавливает случайный шум в имеющихся данных, а не в предполагаемых выходных данных. В идеале мы хотим найти линию с низким смещением и низкой дисперсией.

Почему линия с большим отклонением может быть плохой?

В конце концов, разве линия, фиксирующая каждую точку, не будет идеальной линией? К сожалению нет. Эта линия хорошо улавливает специфические нюансы выборки данных, но она не обязательно будет работать так же хорошо с невидимыми данными. Эти нюансы выборочных данных являются выбросами и другими уникальными характеристиками выборочных данных, характеристиками, которые могут быть не совсем верными для невидимых данных.

Какие есть решения для предотвращения переобучения выборочных данных?

Хотя существует ряд решений для предотвращения или уменьшения переобучения на выборочных данных, в этой статье я расскажу о лассо, гребне и эластичной сети.

Уменьшение переобучения с помощью регуляризации

Модели лассо, гребня и эластичной сети представляют собой формы регуляризованных линейных методов, используемых в общих линейных моделях.

Почему так важна регуляризация?

Регуляризация отдает предпочтение более простым моделям более сложным моделям, чтобы ваша модель не соответствовала данным. Как так? Они решают следующие проблемы в модели: компромисс между дисперсией и смещением, мультиколлинеарность, обработка разреженных данных (то есть ситуация, когда наблюдений больше, чем характеристик), выбор функций и более простая интерпретация выходных данных.

Лассо

Лассо означает оператор выбора наименьшей абсолютной усадки. Лассо назначает штраф коэффициентам в линейной модели, используя формулу ниже, и удаляет переменные с нулевыми коэффициентами. Это называется сжатием или процессом, при котором значения данных сокращаются до центральной точки, такой как среднее значение.

Формула лассо: лассо = сумма ошибок + сумма абсолютных значений коэффициентов.

L = ∑( Ŷi– Yi)² + λ∑ |β|

Глядя на формулу, Лассо добавляет штраф, равный абсолютному значению величины коэффициентов, умноженных на лямбда. Значение лямбды также играет ключевую роль в том, какой вес вы присваиваете штрафу для коэффициентов. Этот штраф уменьшает значение многих коэффициентов до нуля, и все они устраняются.

Какое значение имеет добавление штрафа к коэффициентам в лассо?

Лассо добавляет штраф к коэффициентам, которые модель переоценивает. Это снижает степень переобучения модели.

Каковы некоторые ограничения модели лассо?

Лассо плохо работает с мультиколлинеарностью. Если вы не знакомы, мультиколлинеарность возникает, когда некоторые зависимые переменные коррелируют друг с другом. Почему? Лассо может случайным образом выбрать одну из мультиколлинеарных переменных, не понимая контекста. Такое действие может устранить соответствующие независимые переменные.

Ридж

Ридж назначает штраф, который представляет собой квадрат значений коэффициентов функции потерь, умноженных на лямбду. Как и Лассо, Ридж также добавляет штраф к коэффициентам, которые модель переоценивает. Значение лямбды также играет ключевую роль в том, какой вес вы присваиваете штрафу для коэффициентов. Чем больше у вас значение лямбды, тем больше вероятность того, что ваши коэффициенты будут все ближе и ближе к нулю. В отличие от лассо, модель гребня не уменьшает эти коэффициенты до нуля.

Формула Риджа: сумма ошибок + сумма квадратов коэффициентов.

L = ∑( Ŷi– Yi)² + λ∑ β²

Какие ограничения у Ridge?

Ridge не исключает коэффициенты в вашей модели, даже если переменные не имеют значения. Это может быть отрицательно, если у вас больше возможностей, чем наблюдений.

Эластичная сеть

Elastic Net сочетает в себе характеристики лассо и гребня. Elastic Net снижает влияние различных функций, но не устраняет все функции.

Формула, как вы можете видеть ниже, представляет собой сумму формул лассо и гребня.

Формула эластичной сети: гребень + лассо

L = ∑( Ŷi– Yi)² + λ∑ β² + λ∑ |β|

В заключение скажем, что Lasso, Ridge и Elastic Net - отличные методы для повышения производительности вашей линейной модели. Это включает в себя, если вы используете нейронную сеть, набор линейных моделей. Лассо устранит многие особенности и уменьшит переоснащение вашей линейной модели. Ridge снизит влияние функций, которые не важны для прогнозирования ваших значений y. Elastic Net сочетает в себе исключение признаков из лассо и уменьшение коэффициентов признаков из модели Ridge, чтобы улучшить предсказания вашей модели.