В этой статье мы узнаем о предвзятости, дисперсии, а также о способах выявления и уменьшения высокой предвзятости и дисперсии. Мы также прольем свет на взаимосвязь между предвзятостью и дисперсией в машинном обучении.

Что такое предвзятость?

Смещение оценщика означает разницу между ожидаемым значением оценщиков и правильным или истинным значением оцениваемого параметра. Он дает представление о расстоянии между средним значением оценщика и значением параметра. Это также называется ошибкой смещения или ошибкой из-за смещения.

Высокое смещение: это происходит из-за простой модели. Его можно определить, когда мы получим:

  • Высокая ошибка обучения (более допустимая ошибка теста)
  • Ошибка теста почти такая же, как ошибка обучения.

Чтобы уменьшить высокую предвзятость:

  • Используйте более сложные модели (например, используйте полиномиальные функции)
  • увеличить возможности ввода
  • Уменьшить срок регуляризации

Примеры моделей:

  • Модели с низким смещением: k-ближайшие соседи (k = 1), деревья решений, машины опорных векторов
  • Модели с высоким смещением: логистическая регрессия и линейная регрессия

Что такое дисперсия?

Дисперсия — это мера того, насколько далеко может уйти оценка от ожидаемого значения. Он также определяется как ожидаемое значение квадрата отклонения от его среднего значения. Как и систематическая ошибка, она не зависит от оцениваемых параметров. Дисперсия измеряет, насколько разбросаны или непоследовательны прогнозируемые значения от правильных значений из-за обучающих наборов данных. Ее также называют ошибкой дисперсии или ошибкой из-за дисперсии.

Высокая дисперсия: это связано с тем, что модель пытается соответствовать большинству точек обучающего набора данных, что делает ее сложной. Его можно определить, когда мы получим:

  1. Низкая ошибка обучения.
  2. Высокая ошибка теста (более чем допустимая ошибка теста).

Чтобы уменьшить высокую дисперсию:

  • Уменьшить входные функции
  • Используйте менее сложную модель
  • Добавьте больше обучающих данных
  • Увеличить срок регуляризации

Примеры моделей:

  • Модели с низкой дисперсией: линейная регрессия и логистическая регрессия
  • Модели с высокой дисперсией: k-ближайшие соседи (k=1), деревья решений и машины опорных векторов.

Различные комбинации Bias-Variance:

  1. Высокое смещение — низкая дисперсия. Это случай недостаточного подбора. Такие модели, как линейная и логистическая регрессия, склонны к недообучению. Здесь прогнозируемые значения согласуются, но в среднем неверны. Эта ситуация возникает, когда модель не имеет достаточного количества данных и использует очень мало функций.
  2. Высокое смещение — высокая дисперсия. В этом случае прогнозы в среднем не являются ни согласованными, ни точными.
  3. Низкое смещение — низкая дисперсия. Это случай идеальной модели, которой невозможно достичь.
  4. Низкое смещение — высокая дисперсия: это сценарий переобучения. Здесь прогнозы не согласуются, но в среднем верны. Такая ситуация возникает, когда модель обучается на больших числах. параметров.

Компромисс между смещением и дисперсией:

Смещение и дисперсия обратно пропорциональны, что означает, что увеличение дисперсии уменьшит смещение и наоборот. Чтобы повысить точность прогнозов, мы хотим иметь низкое смещение и низкую дисперсию. Следовательно, чтобы решить эту проблему, мы ищем золотую середину между смещением и дисперсией, которая не приведет ни к недообучению, ни к переобучению.