Машинное обучение

Что такое компромисс смещения и дисперсии?

Избегайте ошибки переобучения и неполного оснащения

Как специалисту по машинному обучению важно хорошо понимать, как создавать эффективные модели с высокой точностью. Распространенная ошибка при обучении модели - переобучение или недообучение.

Давайте рассмотрим эти темы, чтобы в следующий раз, когда вы будете строить модель, вы точно знаете, как избежать ошибки переобучения или неполного подбора.

Компромисс смещения и отклонения

Двумя переменными для измерения эффективности вашей модели являются систематическая ошибка и дисперсия.

Знайте, что речь идет об эффективности модели. Если вас интересует проверка модели, мы обсудим это в другой статье.

Смещение - это ошибка или разница между заданными точками и точками, нанесенными на линию в вашем обучающем наборе.

Дисперсия - это ошибка, возникающая из-за чувствительности к небольшим изменениям в обучающей выборке.

Я объясню смещение-дисперсию дальше с помощью изображения выше. Так что, пожалуйста, продолжайте. Говоря простым языком, скажем, ошибка рассчитывается как разница между прогнозируемым и наблюдаемым / фактическим значением. Теперь предположим, что у нас есть очень точная модель. Это означает, что ошибка очень меньше, что указывает на низкую систематическую ошибку и низкую дисперсию. (как видно в верхнем левом круге на изображении).

Если дисперсия увеличивается, данные распространяются больше, что снижает точность. (Как видно в верхнем правом круге на изображении).

Если смещение увеличивается, вычисляемая ошибка увеличивается. (Как видно в нижнем левом круге на изображении).

Высокая дисперсия и высокая систематическая ошибка указывают на то, что данные распространяются с большой ошибкой. (Как видно в правом нижнем круге на изображении)

Это компромисс между отклонением и смещением. Ранее я определял смещение как меру ошибки между тем, что фиксирует модель, и тем, что показывают доступные данные, а дисперсию - это ошибку от чувствительности к небольшим изменениям в доступных данные. Модель, имеющая высокую дисперсию, фиксирует случайный шум в данных.

Мы хотим найти наиболее подходящую линию с низким смещением и низкой дисперсией. (как видно в верхнем левом круге на изображении).

Как параметры влияют на нашу модель?

Сложность модели продолжает расти по мере увеличения количества параметров. Это может привести к переобучению, в основном увеличению дисперсии и уменьшению смещения.

Наша цель - найти в нашей модели точку, в которой уменьшение смещения равно увеличению дисперсии. Итак, как мы это сделаем? Давайте посмотрим на подгонку модели.

Подгонка модели

Мы можем найти линию, которая представляет общее направление точек, но не может представлять каждую точку в наборе данных. Это будет наиболее подходящая модель.

Почему бы всегда не использовать полиномы высшего порядка?

Хороший вопрос. К сожалению, ответ отрицательный. Поступая так, мы бы создали модель, которая очень хорошо соответствует нашим обучающим данным, но не может обобщать за пределы обучающего набора (скажем, любые данные тестирования, на которых модель не была обучена). Поэтому наша модель плохо работает с тестовыми данными, что снижает точность. Эта проблема называется чрезмерной подгонкой. Мы также говорим, что модель имеет высокую дисперсию и низкую систематическую ошибку.

Точно у нас есть еще одна проблема. Это называется недостаточная подгонка. Это происходит, когда наша модель не соответствует обучающим данным и не обобщает новые данные (скажем, любые данные тестирования, на которых модель не обучалась). Наша модель не соответствует требованиям, когда у нас высокое смещение и низкая дисперсия.

На изображении выше показана синяя линия, которая является линией полиномиальной регрессии. Прямая черная линия - это линейная функция. Хотя полиномиальная функция идеально подходит, можно ожидать, что линейная функция будет лучше обобщать. Таким образом, мы можем сказать, что полиномиальная функция переоснащается, с другой стороны, прямая линия является наиболее подходящей. Представьте себе воображаемую линию, которая вряд ли проходит через какую-либо из этих точек. Это было бы неподходящим.

Как преодолеть недостаточное и переоснащение регрессионной модели?

  • Чтобы преодолеть недостаточную подгонку или сильное смещение, мы можем добавить новые параметры в нашу модель, чтобы сложность модели увеличивалась, уменьшая тем самым высокое смещение.
  • Чтобы избежать переобучения, мы могли бы использовать такие методы, как снижение сложности модели и регуляризация.
  • Мы обсудим регуляризацию в другой статье.

Вывод

Надеюсь, вы поняли компромисс между способностью модели сводить к минимуму смещение и дисперсию, что играет важную роль в достижении наилучшего соответствия вашей модели машинного обучения.

Увидимся в следующем. Спасибо!