Когда мы прогнозируем модель, будет некоторая неизмеримая разница между прогнозируемым (ожидаемым) значением и истинным (фактическим) значением. Это называется ошибкой предсказания, которую можно разделить на неснижаемую ошибку и уменьшаемую ошибку.

Неприводимая ошибка возникает из-за случайности или естественной изменчивости в существующей системе, зависит от данных и не может быть уменьшена путем улучшения модели. С другой стороны, сводимая ошибка должна быть минимизирована, чтобы максимизировать точность. Эта сокращаемая ошибка может быть далее разложена на ошибку из-за смещения и ошибку из-за дисперсии. Это очень важный аспект обучения с учителем.

Смещение - это насколько предсказанные значения отличаются от истинных значений. Это показывает среднюю разницу между предсказанием нашей модели и истиной. Смещение возникает, если рассматриваемые данные слишком просты, а также если прогнозы далеки от истины. В среднем, если наши прогнозы верны, это называется низкой систематической ошибкой. По мере увеличения систематической ошибки наши прогнозы становятся все более и более неверными, это называется высокой систематической ошибкой. Примеры алгоритмов с высоким смещением включают линейную регрессию и логистическую регрессию. Их легко понять, но недостаточно гибко для изучения сигнала, лежащего в основе данных. Таким образом, они неточны для сложных данных.

Дисперсия - это то, насколько различаются прогнозы. Это показывает количество вариаций в нашей модели. Дисперсия возникает, если рассматриваемые данные слишком сложны, а прогнозируемые значения слишком близки к истинным значениям. Если наши прогнозы постоянно попадают в одно и то же значение, это называется низкой дисперсией. Если наши прогнозы более разбросаны, это называется высокой дисперсией. Это можно пояснить с помощью следующего примера и диаграммы.

Часы, которые всегда опаздывают на час, имеют высокую систематическую ошибку, но низкую дисперсию. Если вместо этого часы беспорядочно чередуются между быстрыми и медленными, но в среднем показывают правильное время, они имеют высокую дисперсию, но низкую погрешность. - Педро Домингос

Часто мы видим, что такие утверждения, как модель с большим смещением, приводят к недостаточной подгонке, а модель с высокой дисперсией - к переобучению. Посмотрим, что именно. Если не хватает предикторов или независимых переменных, получается очень простая модель. Это называется недостаточное оснащение. Если предикторы слишком сложны, это приводит к переобучению.

Чтобы построить хорошую прогностическую модель, вам нужно найти баланс между систематической ошибкой и дисперсией, который минимизирует ошибку. Оптимальный баланс предвзятости и дисперсии приводит к модели, которая не является ни переоснащенной, ни недостаточной. Для получения наилучшей модели прогнозирования необходимо лучше подходить к компромиссу смещения и отклонения.