Классическая модель линейной регрессии хороша. Зачем нужна регуляризация?

Мотивация

Модель линейной регрессии, вероятно, является самой простой и наиболее часто используемой моделью прогнозирования. Использование модели линейной регрессии дает множество преимуществ. Самая важная из них заключается в том, что при предположении нормального распределения членов ошибок, оценки OLS (обыкновенных наименьших квадратов) модели линейной регрессии являются несмещенными (на основе теоремы Гаусса-Маркова), таким образом, дают полезные выводы.

Но есть случаи, когда классическая модель линейной регрессии не справляется:

Когда есть мультиколлинеарность. Мультиколлинеарность - это явление, при котором одна (или несколько) независимых переменных может быть выражена как линейная комбинация других независимых переменных. Фактически, эта проблема существует практически повсюду в реальном мире.
Когда количество независимых переменных больше, чем количество наблюдений. Когда это происходит, оценки OLS недействительны главным образом потому, что у наших оценок есть бесконечное количество решений.

……

Следовательно, нам нужны лучшие альтернативы для решения этих проблем.

Введение в регуляризацию

Есть несколько способов решения вышеупомянутых проблем, таких как выбор функций, регуляризация, уменьшение размерности и т. Д. Сегодня я сосредоточусь только на регуляризации.

Регуляризация - это процесс введения дополнительной информации для решения некорректно поставленной проблемы или предотвращения переобучения (Википедия). Один из способов регуляризации - добавить ограничение к функции потерь:

Регуляризованный убыток = функция убытка + ограничение

Есть несколько различных форм ограничений, которые мы могли бы использовать для регуляризации. Три самых популярных - это Ridge Regression, Lasso и Elastic Net.

Риджевая регрессия

Риджевая регрессия также называется регуляризацией L2. Он добавляет ограничение, которое является линейной функцией квадратов коэффициентов.

Чтобы минимизировать регуляризованную функцию потерь, нам нужно выбрать λ, чтобы минимизировать сумму площади круга и площади эллипсоида, выбранного касанием.

Обратите внимание, что когда λ стремится к нулю, регуляризованная функция потерь становится функцией потерь OLS.

Когда λ стремится к бесконечности, мы получаем модель только с перехватом (потому что в этом случае коэффициенты регрессии гребня стремятся к нулю). Теперь у нас меньшая дисперсия, но большая погрешность.

Критика гребневой регрессии состоит в том, что все переменные имеют тенденцию попадать в модель. Модель только уменьшает коэффициенты.

Лассо

Лассо также известно как регуляризация L1. Это штрафует модель за счет абсолютных весовых коэффициентов.

Лассо работает следующим образом: оно заставляет сумму абсолютных значений коэффициентов быть меньше константы, что заставляет некоторые из коэффициентов равняться нулю и приводит к более простой модели. Это связано с тем, что по сравнению с регуляризацией L2 эллипсоид имеет тенденцию касаться ограничения в форме ромба на углу.

Лассо работает лучше, чем регрессия гребня, в том смысле, что оно очень помогает при выборе объектов.

Эластичная сеть

Elastic Net - это комбинация регуляризации L1 и регуляризации L2. Это может как уменьшить коэффициенты, так и исключить некоторые из незначительных коэффициентов.

Параметр настройки λ

Как мы обсуждали выше, выбор правильного параметра настройки λ очень важен для регуляризации. Например, гребенчатая регрессия в основном решает проблему мультиколлинеарности. Поэтому мы хотим, чтобы параметр настройки λ был относительно небольшим, чтобы контролировать смещение, вносимое в модель. Лассо хорошо работает с точки зрения выбора функций, поэтому мы хотим найти баланс между подгонкой модели и уменьшением коэффициентов.

Статистически существует несколько доступных вариантов настройки выбора параметров, включая CV (перекрестная проверка), AIC (информационный критерий Акаике) и BIC (байесовский информационный критерий). Ниже приведен список исследований, к которым вы можете обратиться, если хотите узнать больше:

Регуляризация и выбор переменных через эластичную сеть

Выбор параметра настройки LASSO

К счастью, у нас есть полезные пакеты Python и R, которые могут помочь нам определить подходящие параметры настройки. glmnet (R) и scikit-learn (Python) - мощные пакеты, которые могут помочь вам решить проблему.

Конец

Мы всегда хотим подобрать модель, которая хорошо работает на обучающей выборке (низкий уровень смещения) и хорошо предсказывает невидимые данные (низкая дисперсия). Хотя регуляризация действительно вносит предвзятость в модель, компромисс заключается в том, что она снижает дисперсию модели. На практике выбор модели линейной регрессии OLS или регуляризованной модели зависит от конкретного случая. Вы всегда можете использовать модель линейной регрессии в качестве базовой модели, сравнить ее с регуляризованной моделью и найти наиболее подходящую.

Эта статья вдохновлена классами линейного регрессионного анализа и машинного обучения, которые я посещаю в Университете Сан-Франциско.

Надеюсь, вам понравится эта статья. Пожалуйста, дайте мне знать, если у вас есть какие-либо вопросы, комментарии, предложения и т. Д. Спасибо за чтение :)

Ссылка

Линейный регрессионный анализ в Университете Сан-Франциско Джеффа Хэмрика

Машинное обучение в Университете Сан-Франциско, Брайан Спиринг

Основы штрафной регрессии: гребень, лассо и эластичная сеть

Регуляризация лассо, гребня и эластичной сети от Джайеш Бапу Ахире

Регуляризация в машинном обучении от Прашанта Гупты