способ решения проблемы переобучения

Чтобы понять регрессию гребня и лассо, мы сначала должны повторить и освежить наше понимание того, что такое модель и что такое модель линейной регрессии (OLS).

Что такое модель:

Модель — это конструкция логики, позволяющая автоматизировать прогнозы. У нас может быть модель X, отправить ей любой вход I и получить выход O (прогноз).

Input Data ----> Statistical Logic ----> Output Data (predictions)

Резюме линейной регрессии:

Линейная регрессия — один из таких способов построения логики. В линейной регрессии логика представляет собой математическую «прямую линию». Прямая линия, как показано ниже. Линия может многое рассказать. Наклон линии выбирается таким, чтобы она имела наилучшее соответствие (наименьшее расстояние — сумма квадратов от точек данных). Таким образом, цель состоит в том, чтобы наилучшим образом соответствовать тренировочным данным!

y-axis
^
|   * /
|    / * *
| * /
|* / *
|_/_______________> x-axis
* - are the data points around which line is fitted

Проблема:

Как часто оказывается, подобранная линия очень хорошо подходит к обучающим данным, настолько хорошо подходит (объясняет всю дисперсию обучающих данных), что не может объяснить дисперсию тестовых данных. Это проблема, так как целью модели является предсказание новых данных, которые она никогда не видела, т. е. тестовых данных. Подогнанная линия (модель) страдает от того, что называется переоснащением или высокой дисперсией. Проблема в том, что подогнанная линия слишком хороша.

Решение:

Один из способов решить проблему переоснащения подобранной линии — переместить линию вокруг ее наклона, т. е. изменить наклон. Это может помочь добавить шума и сделать линию «не такой хорошей, как сейчас». Это способ добавить некоторые штрафы (или думать об этом как о шуме) к подобранной линии и попытаться восстановить ее. Это то, что делают регрессии Риджа и Лассо, они реконструируют подобранную линию (в частности, ее наклон). Итак, как мы выбираем какой новый склон выбрать? Для этого мы создаем новую функцию стоимости и находим наклон, который сводит ее к минимуму.

Linear Regression (OLS)
Original Cost function = sum of squared errors
Based on the above, the best fitted line is chosen for which the cost in the least.
Ridge or Lasso Regression
Ridge - New Cost function = sum of squared errors + (penalty x squared(slope of line)
Lasso - New Cost function = sum of squared errors + (penalty x absolute(slope of line)
Based on the above, the best fitted line is chosen for which the above cost in the least. Notice how this cost function has a penalty value (usually like 0.1) - it is the rate of change and the slope of the line as extra cost.

Теперь новая функция стоимости пересчитывается для разных значений наклона. Для гребневой регрессии наиболее подходящий наклон, т. е. наклон с наименьшей функцией новой стоимости, близок к нулевому значению наклона, но не точно равен нулю.

Интересно видеть, что то, что делает регрессия Риджа, делает наклон подобранной линии почти 0, так что коэффициенты всех признаков (переменных-предикторов) становятся настолько малыми, что это не оказывает большого влияния на прогноз. . Именно в этом и состоит задача регуляризации с помощью регрессии Риджа — уменьшить переоснащение — поскольку теперь переменные уменьшат изменчивость, которую они объясняют в обучающих данных, и, следовательно, лучше объясняют тестовые данные.

y-axis (new cost function - Ridge)
    ^
    |         )
    | (      )
    |  (    )
    |   (  )
    |    \/
    |_______________> x-axis (slope values)
         0.1
y-axis (new cost function - Lasso)
    ^
    |         )
    | (      )
    |  (    )
    |   (  )
    |    \/
    |_______________> x-axis (slope values)
         0.0

Аналогично для Lasso: новая функция стоимости пересчитывается для разных значений наклона. Для регрессии Лассо наиболее подходящий наклон, т. е. наклон с наименьшей функцией новой стоимости, может сходиться ровно к 0 значению наклона. Это фактически полностью удаляет некоторые функции (переменные-предикторы). Итак, для Lasso он не только выполняет задачу регуляризации — уменьшает переоснащение за счет уменьшения коэффициента каждой переменной — он также идет на шаг впереди сокращения признаков, удаляя некоторые из них.

Ridge is (L2) не устойчив к выбросам, так как мы возводим веса в квадрат. Лассо (L1) устойчиво к выбросам, поскольку мы берем абсолютные веса, а не квадраты.

О скорости обучения — лямбда (λ)

λ, как мы видели ранее, учитывается при определении новой функции стоимости. Следует иметь в виду, что чем выше λ, тем выше штрафная ошибка, что приводит к низкому подбору и потенциально высокому смещению. Это связано с тем, что данные будут подбираться с более высоким штрафом за ошибку, что снижает подгонку от хорошей подгонки.

С другой стороны, чем ниже λ, тем меньше штрафная ошибка, что приводит к высокой подгонке и потенциально высокой дисперсии. Это связано с тем, что данные могут не получать достаточного количества шума и приводить к высокой дисперсии.

Заключение:

Многие модели машинного обучения могут страдать от переобучения. Это происходит, когда модельслишком хорошо работает с обучающими данными. Один из способов решить эту проблему для модели линейной регрессии — использовать регрессию Риджа или Лассо. Этот метод перемещает наклон переменных-предикторов таким образом, что добавляет шум и делает модель более обобщаемой для проверки данных.