В этой статье мы узнаем о предвзятости, дисперсии, а также о способах выявления и уменьшения высокой предвзятости и дисперсии. Мы также прольем свет на взаимосвязь между предвзятостью и дисперсией в машинном обучении.
Что такое предвзятость?
Смещение оценщика означает разницу между ожидаемым значением оценщиков и правильным или истинным значением оцениваемого параметра. Он дает представление о расстоянии между средним значением оценщика и значением параметра. Это также называется ошибкой смещения или ошибкой из-за смещения.
Высокое смещение: это происходит из-за простой модели. Его можно определить, когда мы получим:
- Высокая ошибка обучения (более допустимая ошибка теста)
- Ошибка теста почти такая же, как ошибка обучения.
Чтобы уменьшить высокую предвзятость:
- Используйте более сложные модели (например, используйте полиномиальные функции)
- увеличить возможности ввода
- Уменьшить срок регуляризации
Примеры моделей:
- Модели с низким смещением: k-ближайшие соседи (k = 1), деревья решений, машины опорных векторов
- Модели с высоким смещением: логистическая регрессия и линейная регрессия
Что такое дисперсия?
Дисперсия — это мера того, насколько далеко может уйти оценка от ожидаемого значения. Он также определяется как ожидаемое значение квадрата отклонения от его среднего значения. Как и систематическая ошибка, она не зависит от оцениваемых параметров. Дисперсия измеряет, насколько разбросаны или непоследовательны прогнозируемые значения от правильных значений из-за обучающих наборов данных. Ее также называют ошибкой дисперсии или ошибкой из-за дисперсии.
Высокая дисперсия: это связано с тем, что модель пытается соответствовать большинству точек обучающего набора данных, что делает ее сложной. Его можно определить, когда мы получим:
- Низкая ошибка обучения.
- Высокая ошибка теста (более чем допустимая ошибка теста).
Чтобы уменьшить высокую дисперсию:
- Уменьшить входные функции
- Используйте менее сложную модель
- Добавьте больше обучающих данных
- Увеличить срок регуляризации
Примеры моделей:
- Модели с низкой дисперсией: линейная регрессия и логистическая регрессия
- Модели с высокой дисперсией: k-ближайшие соседи (k=1), деревья решений и машины опорных векторов.
Различные комбинации Bias-Variance:
- Высокое смещение — низкая дисперсия. Это случай недостаточного подбора. Такие модели, как линейная и логистическая регрессия, склонны к недообучению. Здесь прогнозируемые значения согласуются, но в среднем неверны. Эта ситуация возникает, когда модель не имеет достаточного количества данных и использует очень мало функций.
- Высокое смещение — высокая дисперсия. В этом случае прогнозы в среднем не являются ни согласованными, ни точными.
- Низкое смещение — низкая дисперсия. Это случай идеальной модели, которой невозможно достичь.
- Низкое смещение — высокая дисперсия: это сценарий переобучения. Здесь прогнозы не согласуются, но в среднем верны. Такая ситуация возникает, когда модель обучается на больших числах. параметров.
Компромисс между смещением и дисперсией:
Смещение и дисперсия обратно пропорциональны, что означает, что увеличение дисперсии уменьшит смещение и наоборот. Чтобы повысить точность прогнозов, мы хотим иметь низкое смещение и низкую дисперсию. Следовательно, чтобы решить эту проблему, мы ищем золотую середину между смещением и дисперсией, которая не приведет ни к недообучению, ни к переобучению.