Когда мы говорим о прогнозировании модели, важно понимать ошибки прогнозирования (смещение и дисперсию). Существует компромисс между способностью модели минимизировать смещение и дисперсию. Понимание этих ошибок поможет нам не только построить точные модели, но и избежать ошибки переобучения или неполной подгонки.

В статистике и машинном обучении компромисс смещения и дисперсии является свойством набора прогнозных моделей, в соответствии с которым модели с меньшим смещением в оценке параметров имеют более высокую дисперсию параметра. оценки по выборкам, и наоборот. Дилемма смещения – дисперсии или проблема смещения – дисперсии - это конфликт при попытке одновременно минимизировать эти два источника ошибок, которые не позволяют алгоритмам контролируемого обучения обобщать за пределы их обучающей выборки:

  • Ошибка смещения - это ошибка из-за ошибочных предположений в алгоритме обучения. Сильное смещение может привести к тому, что алгоритм упустит релевантные отношения между функциями и целевыми выходными данными (недостаточная подгонка). Это всегда приводит к высокой погрешности обучающих и тестовых данных.
  • Дисперсия - это ошибка из-за чувствительности к небольшим колебаниям обучающей выборки. Высокая дисперсия может привести к тому, что алгоритм будет моделировать случайный шум в обучающих данных, а не намеченные выходные данные (переобучение). В результате такие модели очень хорошо работают с обучающими данными, но имеют высокую частоту ошибок на тестовых данных.

Математически

Пусть переменная, которую мы пытаемся предсказать, как Y, а другие ковариаты - как X. Мы предполагаем, что между ними существует такая взаимосвязь, что

Y=f(X) + e

Где e - показатель ошибки, и он обычно распределяется со средним значением 0.

Мы создадим модель f ^ (X) из f (X), используя линейную регрессию или любой другой метод моделирования.

Таким образом, ожидаемая квадратичная ошибка в точке x равна

Err (x) можно дополнительно разложить как

Err (x) - это сумма смещения², дисперсии и неснижаемой ошибки.

Неприводимая ошибка - это ошибка, которую нельзя уменьшить, создавая хорошие модели. Это мера количества шума в наших данных. Здесь важно понимать, что независимо от того, насколько хорошо мы сделаем нашу модель, наши данные будут содержать определенный шум или неснижаемую ошибку, которую невозможно удалить.

Смещение и дисперсия с использованием диаграммы "бычий глаз"

На приведенной выше диаграмме центр цели - это модель, которая идеально предсказывает правильные значения. По мере того, как мы отдаляемся от мишени, наши прогнозы становятся все хуже и хуже. Мы можем повторить наш процесс построения модели, чтобы получить отдельные попадания в цель.

При обучении с учителем недообучение происходит, когда модель не может уловить основной шаблон данных. Эти модели обычно имеют высокую систематическую ошибку и низкую дисперсию. Это происходит, когда у нас очень мало данных для построения точной модели или когда мы пытаемся построить линейную модель с нелинейными данными. Кроме того, такие модели очень просто фиксируют сложные закономерности в данных, такие как линейная регрессия и логистическая регрессия.

При обучении с учителем переобучение происходит, когда наша модель улавливает шум вместе с базовым шаблоном в данных. Это происходит, когда мы много тренируем нашу модель на зашумленном наборе данных. Эти модели имеют низкую систематическую ошибку и высокую дисперсию. Эти модели очень сложны, как деревья решений, которые склонны к переобучению.

Почему нужно искать компромисс между отклонением от смещения?

Если наша модель слишком проста и имеет очень мало параметров, то она может иметь большое смещение и низкую дисперсию. С другой стороны, если наша модель имеет большое количество параметров, она будет иметь высокую дисперсию и низкую систематическую ошибку. Таким образом, нам нужно найти правильный / хороший баланс без переобучения и недостаточного соответствия данных.

Из-за этого компромисса сложности возникает компромисс между смещением и дисперсией. Алгоритм не может быть одновременно более сложным и менее сложным.

Общая ошибка

Чтобы построить хорошую модель, нам нужно найти хороший баланс между смещением и дисперсией, чтобы минимизировать общую ошибку.

Оптимальный баланс предвзятости и дисперсии никогда не приведет к чрезмерному или недостаточному соответствию модели.

Поэтому понимание смещения и дисперсии имеет решающее значение для понимания поведения моделей прогнозирования.