Что такое предвзятость?

Неспособность модели машинного обучения уловить истинную взаимосвязь данных.

Вы можете проверить этот блокнот Kaggle для обоих экспериментов: All About Bias Variance

Здесь я провел эксперимент, в котором мы сначала сгенерировали случайные данные полиномиальной степени 3, а затем подобрали модель линейной регрессии, а затем полиномиальную линейную регрессию. И мы ясно заметили, что наша модель линейной регрессии не смогла уловить истинное отношение данных, тогда как полиномиальная линейная регрессия смогла уловить истинное отношение данных.

Таким образом, мы также можем столкнуться с высокой предвзятостью, если не выберем подходящую модель. Это также известно как недообучение, когда наша модель плохо работает с обучающими данными.

Чтобы свести к минимуму предвзятость, у вас есть два варианта:

1. Увеличьте сложность модели: используя более сложную модель, такую ​​как полиномиальная регрессия с более высокой степенью, или используя более сложные алгоритмы, вы можете повысить гибкость модели, чтобы лучше отображать сложные взаимосвязи в данных.

2. Предоставление большего количества данных для обучения. Предоставление большего набора данных для обучения также может помочь уменьшить систематическую ошибку. Больше данных может предоставить модели более широкий спектр примеров и закономерностей, что позволит ей делать более точные прогнозы и уменьшить систематическую ошибку, вызванную ограниченным объемом данных.

Что такое дисперсия?

Когда наша модель очень хорошо работает на обучающих данных, но не дает хороших результатов на тестовых данных. Это также известно как переоснащение.

Подбирая модели полиномиальной регрессии с различными степенями (1, 3, 10) и вычисляя среднеквадратичную ошибку (MSE) как для обучающей, так и для тестовой выборки, вы можете анализировать производительность модели и наблюдать за дисперсией. По мере увеличения сложности модели (например, от степени 1 до степени 10) увеличивается и дисперсия модели. Модель низкой сложности (степень 1) менее гибкая и имеет низкую дисперсию. Тем не менее, он не может уловить истинные основные отношения, что приводит к высокой систематической ошибке. По мере увеличения сложности (например, степени 3) модель становится более гибкой, уменьшая предвзятость и фиксируя больше истинных отношений. Ошибка обучения уменьшается, что указывает на лучшее соответствие обучающим данным.

Однако, когда вы достигаете очень высокой степени (например, степени 10), модель становится слишком сложной и начинает фиксировать не только истинные отношения, но и шум или случайные колебания в обучающих данных. Это приводит к снижению производительности на данных тестирования, о чем свидетельствует возрастающая ошибка тестирования. Модель становится слишком специфичной для обучающих данных и не может хорошо обобщить невидимые данные, что приводит к высокой дисперсии или переоснащению.

Как свести к минимуму переоснащение:

1. Регуляризация. Регуляризация — это метод, используемый для добавления штрафного члена к функции потерь модели.

2. Сокращение. Сокращение включает в себя выборочное удаление определенных узлов, соединений или подсетей из модели после обучения.

3. Методы ансамбля. Методы ансамбля объединяют несколько моделей для прогнозирования. Путем усреднения или объединения прогнозов нескольких моделей можно уменьшить общую дисперсию, что приведет к лучшему обобщению.

4. Уменьшение количества нейронов или скрытых слоев в нейронных сетях. В нейронных сетях переобучение может происходить, когда в модели слишком много нейронов или скрытых слоев, что позволяет ей изучать сложные закономерности из обучающих данных, которые могут плохо обобщаться. Уменьшая сложность сети, например уменьшая количество нейронов или скрытых слоев, вы можете контролировать мощность модели и предотвращать переоснащение.

Помните, что это компромисс между предвзятостью и дисперсией. Если мы минимизируем смещение, то дисперсия будет увеличиваться, и наоборот. Поэтому мы всегда должны стремиться к модели с низким смещением и низкой дисперсией. Идеальный сценарий — найти «золотую середину», где и систематическая ошибка, и дисперсия низки.

ПРИМЕЧАНИЕ. Я страстный энтузиаст науки о данных, который любит вести блоги на разные темы. С помощью своих блогов я стремлюсь углубить свое понимание предметов, а также внести свой вклад в сообщество по обмену знаниями. Я очень ценю отзывы и конструктивную критику, поэтому, если вы обнаружите какие-либо ошибки или ошибки в моих блогах, не стесняйтесь обращаться ко мне по адресу [email protected]. Ваш вклад будет принят с благодарностью. Спасибо за Вашу поддержку!