Компромисс между смещением и дисперсией: когда необходима регуляризация?

Имея набор данных для обучения модели, мы часто сталкиваемся с проблемой: наша модель слишком проста, слишком полна или в самый раз? Если наша модель слишком проста или слишком полна, она не даст наилучших результатов. Когда наша модель слишком проста, она «не соответствует» и страдает от ошибок из-за предвзятости. Когда наша модель слишком хорошо подходит для наших обучающих данных, наша модель страдает от ошибок из-за дисперсии и плохо обобщается на новые, невидимые данные. Это когда регуляризация вступает в игру. Когда наша тренировочная оценка значительно лучше, чем наша тестовая оценка, наша модель является переобученной. Возможными причинами переобучения являются использование слишком большого количества признаков или небольшого набора данных.

Что делает регуляризация?

Так как же нам обращаться с моделью переобучения? Регуляризация! Цель регуляризации — удалить шум (случайные ошибки и флуктуации в наших данных) и найти то, что мы хотим обнаружить — сигнал. Регуляризация сохраняет все функции в нашей модели, но уменьшает величину коэффициентов (θ), тем самым делая коэффициенты для менее важных функций (шума) очень маленькими и менее влияющими на наш прогноз.

Типы регуляризации

L1: Лассо (λ ∑|θ|)

· Самое радикальное — обнулить коэффициенты (удалить бесполезные функции, θ = 0)

· Подходит для выбора функций

L2: хребет (λ ∑ θ²)

· Уменьшает коэффициенты, но не удаляет их полностью

· Подходит для моделей с большим количеством полезных функций

λ - определяет суровость наказания (при λ → ∞, θ → 0)

L1/L2: эластичная сетка

· Сочетание конька и аркана

Пример: цены на жилье

Есть много-много характеристик, которые определяют, как оценивать дом — местоположение, возраст, размер, цвет и т. д. С таким количеством характеристик, используемых для прогнозирования цены, наша модель может быть легко переобучена. Мы можем использовать регуляризацию, чтобы найти функции, которые имеют наибольший сигнал. Используя регуляризацию лассо, мы видим, что коэффициент для цвета теперь равен 0 (функция была удалена), но коэффициент для размера довольно высок. Когда функция добавляет сигнал в модель, регуляризация мало повлияет на модель, поэтому мы можем легко увидеть, какие функции являются наиболее важными.