Упрощенный компромисс между отклонением от дисперсии

Когда я впервые столкнулся с терминологией Bias Variance Trade off, понять ее полностью было несложно. Единственное, что пришло мне в голову, это -

Аналогии всегда помогали мне понять вещи, поэтому я придумал несколько аналогий, чтобы понять эту концепцию. Надеюсь, это поможет и вам!

Что такое дисперсия?

Еще в школе всегда был один ребенок, который зубрил все, чему его учат, не думая и не понимая. (Я знал человека, который, когда ему задавали вопрос, даже называл мне точный номер страницы вместе с точным ответом дословно). Поэтому, когда вы тестируете то, чему когда-либо учат, этот ребенок показывает удивительно хорошие результаты, но с треском проваливается, когда проверяется что-то похожее, но не входящее в программу. Этот ребенок напоминает модель с высокой дисперсией. Поэтому, когда вы тренируете свою модель, чтобы она работала исключительно хорошо (также называемая чрезмерной подгонкой) на обучающих данных, модель будет плохо работать на неизвестных (тестовых) данных.

Дисперсия. Величина, на которую прогноз модели изменится, если мы оценим его, используя другие обучающие данные.

Модель с высокой дисперсией уделяет большое внимание обучающим данным и не обобщает данные. Они хорошо работают на обучающих данных, но имеют высокий уровень ошибок на тестовых данных.

Что такое предвзятость?

Тогда есть ребенок, у которого продолжительность концентрации внимания летает. Когда дело доходит до подготовки к контрольной, этот ребенок видит общую картину, но не вдается в детали. Малыш быстро пролистывал главы. Очень часто этот ребенок пропускал несколько важных моментов и пропускал подробные ответы во время теста. Малыш представляет собой модель с высоким уклоном.

Смещение. Величина, на которую ожидаемые прогнозы модели отличаются от истинных значений. Он показывает, насколько далеки прогнозы от реальных значений.

Модели с высоким смещением уделяют мало внимания обучающим данным и чрезмерно упрощают их, что приводит к более высокой ошибке обучающих данных.

Переоснащение и недостаточное приспособление можно объяснить с помощью приведенного ниже графика.

В регрессионных моделях:

В моделях классификации:

Недообучение.График слева для регрессионных моделей не охватывает все точки, а для случаев классификации не удается правильно классифицировать многие точки. Его также называют высоким смещением.

Переобучение. Справа показана прогнозируемая линия, покрывающая все точки на графике для регрессии и правильно классифицирующая все точки для моделей классификации. Хотя на первый взгляд это может показаться желательным, этого следует избегать, поскольку прогнозируемая линия покрывает все точки, включая шум и выбросы. В каком-то смысле он гоняется за всеми точками. Его также называют высокой дисперсией.

Хорошее/надежное соответствие. На среднем графике показана довольно хорошая предсказанная линия. Он покрывает почти все точки на графике, но не переусердствует. Это поддержание правильного баланса между предвзятостью и дисперсией.

Что такое компенсация дисперсии смещения?

Идеальным был бы случай, когда студент вникал в детали и вместе с тем получал полную картину. Это будет представлять собой модель с низким смещением и низкой дисперсией.

Почему это компромисс?

Если наша модель очень проста и хорошо обобщает, то она может иметь высокое смещение и низкую дисперсию. Принимая во внимание, что если наша модель имеет большое количество параметров и очень сложна, она может иметь высокую дисперсию и низкое смещение. Но модель не может быть более сложной и очень простой одновременно.

Ошибка обобщения = (Смещение)² + Дисперсия + Неустранимая ошибка

Вывод

Для любой модели машинного обучения высокое смещение и высокая дисперсия являются двумя крайностями, и желательно иметь какое-то оптимальное значение. Когда модель имеет высокое смещение, это означает, что она очень проста и что добавление дополнительных функций должно улучшить ее. Для моделей с высокой дисперсией альтернативой является сокращение функций и включение большего количества обучающих данных.

Спасибо, что прочитали!