Что такое смещение и дисперсия? Разница и связь между смещением и дисперсией:

В этой статье мы узнаем о предвзятости, дисперсии, а также о способах выявления и уменьшения высокой предвзятости и дисперсии. Мы также прольем свет на взаимосвязь между предвзятостью и дисперсией в машинном обучении.

Что такое предвзятость?

Смещение оценщика означает разницу между ожидаемым значением оценщиков и правильным или истинным значением оцениваемого параметра. Он дает представление о расстоянии между средним значением оценщика и значением параметра. Это также называется ошибкой смещения или ошибкой из-за смещения.

Высокое смещение: это происходит из-за простой модели. Его можно определить, когда мы получим:

Высокая ошибка обучения (более допустимая ошибка теста)
Ошибка теста почти такая же, как ошибка обучения.

Чтобы уменьшить высокую предвзятость:

Используйте более сложные модели (например, используйте полиномиальные функции)
увеличить возможности ввода
Уменьшить срок регуляризации

Примеры моделей:

Модели с низким смещением: k-ближайшие соседи (k = 1), деревья решений, машины опорных векторов
Модели с высоким смещением: логистическая регрессия и линейная регрессия

Что такое дисперсия?

Дисперсия — это мера того, насколько далеко может уйти оценка от ожидаемого значения. Он также определяется как ожидаемое значение квадрата отклонения от его среднего значения. Как и систематическая ошибка, она не зависит от оцениваемых параметров. Дисперсия измеряет, насколько разбросаны или непоследовательны прогнозируемые значения от правильных значений из-за обучающих наборов данных. Ее также называют ошибкой дисперсии или ошибкой из-за дисперсии.

Высокая дисперсия: это связано с тем, что модель пытается соответствовать большинству точек обучающего набора данных, что делает ее сложной. Его можно определить, когда мы получим:

Низкая ошибка обучения.
Высокая ошибка теста (более чем допустимая ошибка теста).

Чтобы уменьшить высокую дисперсию:

Уменьшить входные функции
Используйте менее сложную модель
Добавьте больше обучающих данных
Увеличить срок регуляризации

Примеры моделей:

Модели с низкой дисперсией: линейная регрессия и логистическая регрессия
Модели с высокой дисперсией: k-ближайшие соседи (k=1), деревья решений и машины опорных векторов.

Различные комбинации Bias-Variance:

Высокое смещение — низкая дисперсия. Это случай недостаточного подбора. Такие модели, как линейная и логистическая регрессия, склонны к недообучению. Здесь прогнозируемые значения согласуются, но в среднем неверны. Эта ситуация возникает, когда модель не имеет достаточного количества данных и использует очень мало функций.
Высокое смещение — высокая дисперсия. В этом случае прогнозы в среднем не являются ни согласованными, ни точными.
Низкое смещение — низкая дисперсия. Это случай идеальной модели, которой невозможно достичь.
Низкое смещение — высокая дисперсия: это сценарий переобучения. Здесь прогнозы не согласуются, но в среднем верны. Такая ситуация возникает, когда модель обучается на больших числах. параметров.

Компромисс между смещением и дисперсией:

Смещение и дисперсия обратно пропорциональны, что означает, что увеличение дисперсии уменьшит смещение и наоборот. Чтобы повысить точность прогнозов, мы хотим иметь низкое смещение и низкую дисперсию. Следовательно, чтобы решить эту проблему, мы ищем золотую середину между смещением и дисперсией, которая не приведет ни к недообучению, ни к переобучению.

Что такое смещение и дисперсия? Разница и связь между смещением и дисперсией:

Что такое предвзятость?

Что такое дисперсия?

Различные комбинации Bias-Variance:

Компромисс между смещением и дисперсией:

Вопросы по теме