Типы регуляризации, которые мы собираемся собрать в этой статье

  • Лассо
  • хребет
  • Эластичная сетка

Переобучение обучающим данным — большая проблема, которая приводит к большой дисперсии при попытке предсказать тестовые данные.

  • Чтобы преодолеть это, мы добавляем некоторое смещение, чтобы уменьшить дисперсию. Это смещение возникает в виде дополнительного члена в функции потерь, который отличается для разных случаев, описанных выше.
  • Его также можно принять как ограничение на параметры уравнения, которое при минимизации функции потерь можно добавить в качестве множителя Лагранжа для оптимизации.
  • Это препятствует изучению более сложной или гибкой модели, чтобы избежать риска переобучения. Метод наименьших квадратов не может определить разницу между более полезными и менее полезными переменными-предикторами и включает все предикторы при разработке модели. Методы усадки помогают справиться с этим.

Мы начинаем с общей суммы квадратов невязки как функции потерь, которая

Это обычно сводится к минимуму для предполагаемой бета-версии. Теперь, если β (матрица коэффициентов) оценивается таким образом, что данная модель очень близка к каждому наблюдаемому значению, то мы говорим, что модель переоснащена, потому что мы не обязательно можем делать хорошие прогнозы для будущих неизвестных данных. Поэтому мы добавляем к этой функции ограничения… ограничения с различными типами регуляризации приведены ниже.

КОНЬКОВАЯ РЕГРЕССИЯ (регуляризация L2)

Здесь штраф или дополнительный член в функции потерь представляет собой сумму квадратов βi.

Поскольку штрафной коэффициент ( λ) гребневой регрессии обратно пропорционален сумме βi для заданного значения потерь, увеличение λ уменьшает наклон и приближает параметры к 0 (не точно). Мы можем использовать k-кратную перекрестную проверку, чтобы определить, какой λ приводит к низкой дисперсии.

Гребневая регрессия также может использоваться в дискретных независимых переменных, логистической регрессии (сумма правдоподобия + λ*slope²).

Одно интересное использование гребневой регрессии заключается в том, что когда у нас недостаточно выборок данных, чтобы соответствовать параметрам нашего уравнения, мы можем использовать гребневую регрессию, чтобы по-прежнему оценивать значения параметров.

Этот метод используется для устранения мультиколлинеарности в данных. Переменные ограничения гребневой регрессии при построении графика образуют круглую форму.

Прежде чем применять гребенчатую регрессию, следует обратить внимание на моменты: мы должны убедиться, что все независимые и зависимые переменные имеют одинаковую шкалу (предпочтительно центрированы относительно среднего значения и дисперсии 1). Это не проблема, когда мы имеем дело с простой линейной регрессией, поскольку βi никогда не рассматриваются независимо и всегда появляется xiβi.

https://github.com/campusx-official/regularization/blob/master/Ridge%20Regularization.ipynb

РЕГРЕССИЯ ЛАССО (регуляризация L1)

LASSO расшифровывается как Оператор наименьшего абсолютного сжатия и выбора. В этом случае штрафной член равен сумме |βi| скорее сумма βi².

Эта разница приводит к возможности сжимать значения параметров точно до 0, . Поскольку он может исключать некоторые переменные, уменьшая их коэффициенты в уравнениях до нуля, поэтому они более смещены и немного уменьшают дисперсию данных тестирования. Таким образом, это также метод выбора признаков.

Что касается λ, остается прежним. Чем больше λ, тем больше коэффициентов обнуляется. Благодаря этой усадке они обеспечивают высокую точность предсказания.

Лассо формирует ромбовидную форму на графике для своей области ограничения. Эта форма имеет углы, а не ребро. Близость большего красного эллипса с ромбом к оси y означает, что β1 принудительно устанавливается на 0.

Подобно Ridge, это также требует стандартизации.

Ридж VS Лассо

  • Часто ни один из них в целом не лучше.
  • Лассо может установить некоторые коэффициенты равными нулю, тем самым выполняя выбор переменных, в то время как гребневая регрессия не может.
  • Оба метода позволяют использовать коррелированные предикторы, но решают проблему мультиколлинеарности по-разному:
  • * В гребенчатой ​​регрессии коэффициенты коррелированных предикторов аналогичны;
  • * В лассо один из коррелированных предикторов имеет больший коэффициент, а остальные (почти) обнулены.
  • Лассо имеет тенденцию преуспевать, если имеется небольшое количество значимых параметров, а остальные близки к нулю (следовательно, когда на ответ действительно влияют только несколько предикторов).
  • Ridge хорошо работает, если есть много больших параметров примерно с одинаковым значением (следовательно, когда большинство предикторов влияют на ответ).
  • Однако на практике мы не знаем истинных значений параметров, поэтому предыдущие два пункта носят несколько теоретический характер. Просто запустите перекрестную проверку, чтобы выбрать более подходящую модель для конкретного случая.
  • Или... объединить два!

ЭЛАСТИЧНАЯ СЕТКА

Elastic Net — это нечто среднее между Ridge и Lasso.

Я обнаружил, что это происходит двумя способами: либо рассматривая выпуклую комбинацию Ridge и Lasso, заданную

α — параметр микширования.

И другой способ сделать функцию потерь строго выпуклой и, следовательно, уникальным минимумом, - это добавить сумму квадрата нормы.

Между тем другой наивный метод заключается в том, чтобы сначала найти коэффициенты гребня, а затем сделать усадку типа Лассо. Этот вид оценки подвергается двойному сокращению, что приводит к увеличению систематической ошибки и плохим прогнозам. Чтобы скорректировать такие эффекты, коэффициенты масштабируются путем их умножения на (1+λ2).

Это было все о регуляризации, я предлагаю просмотреть мои ресурсы, чтобы узнать больше.

Пожалуйста, поставьте лайк и подпишитесь на меня в Instagram @ codatalicious



Ресурсы:

Введение в статистическое обучение Гарета Джеймса, Даниэлы Виттен, Тревора Хасти, Роберта Тибширани, https://towardsdatascience.com/regularization-in-machine-learning-76441ddcf99a#:~:text=This%20is%20a%20form% 20из,избегайте%20%20риска%20из%20переобучения. , https://corporatefinanceinstitute.com/resources/knowledge/other/ridge/, https://www.datacamp.com/community/tutorials/tutorial-ridge-lasso-elastic-net, https:/ /en.wikipedia.org/wiki/Elastic_net_regularization