Закон о балансировке фитингов модели

В предыдущей статье мы обсуждали концепции недообучения и переобучения модели. По сути, эти две концепции описывают разные способы, по которым модель может не соответствовать вашему набору данных. Под недостаточным соответствием понимается создание модели, которая недостаточно сложна для точного представления данных и не учитывает тенденции в наборе данных. Под переобучением понимается ситуация, когда модель слишком сложна для набора данных и предполагается, что в наборе данных есть тенденции, хотя на самом деле их нет.

Еще один способ подумать об этих темах - использовать термины «предвзятость» и «дисперсия». Эти два термина являются дополнительными фундаментальными концепциями в науке о данных и представляют собой другой способ размышления о проблемах соответствия модели. Понимание этих двух концепций поможет вам создать полезные имитационные модели.

Что такое систематическая ошибка и дисперсия модели?

Оба термина описывают, как модель изменяется по мере ее переобучения с использованием различных частей заданного набора данных. Изменяя часть набора данных, используемую для обучения модели, вы можете изменить функции, описывающие полученную модель. Однако модели разных структур будут по-разному реагировать на новые наборы данных. Смещение и отклонение описывают два разных способа реагирования моделей. Они определены следующим образом:

Смещение: смещение описывает, насколько хорошо модель соответствует обучающей выборке. Модель с высоким смещением не будет точно соответствовать набору данных, тогда как модель с низким смещением будет очень точно соответствовать набору данных. Смещение возникает из-за чрезмерно простых моделей, которые не могут уловить тенденции, присутствующие в наборе данных.

Дисперсия. Дисперсия описывает, насколько модель изменяется, когда вы обучаете ее с использованием различных частей набора данных. Модель с высокой дисперсией будет иметь возможность соответствовать любому предоставленному набору данных, что может каждый раз приводить к кардинально разным моделям. Дисперсия возникает из-за очень сложных моделей, использующих значительное количество функций.

Обычно модели с высоким смещением имеют низкую дисперсию, а модели с высокой дисперсией имеют низкое смещение. Это связано с тем, что эти две модели принадлежат разным типам. Модель, которая недостаточно гибкая для правильного сопоставления набора данных (высокое смещение), также недостаточно гибкая, чтобы резко измениться при использовании другого набора данных (низкая дисперсия).

Те, кто читал мою предыдущую статью о недостаточном и переобучении, вероятно, заметят много общего между этими концепциями. Модели недостаточного соответствия обычно имеют высокую систематическую ошибку и низкую дисперсию. Модели оверфита обычно имеют высокую дисперсию и низкую систематическую ошибку.

В чем разница между систематической ошибкой и дисперсией?

Компромисс между отклонением и отклонением - часто обсуждаемый термин в науке о данных. Это связано с тем, что действия, которые вы предпринимаете для уменьшения смещения (ведущие к лучшему соответствию обучающим данным), одновременно увеличивают дисперсию в модели (приводя к более высокому риску плохих прогнозов). Верно и обратное; Действия, которые вы предпринимаете для уменьшения дисперсии, неизбежно увеличивают предвзятость.

Что я могу сделать с компромиссом смещения и дисперсии?

Важно помнить, что увеличение дисперсии - не всегда плохо. Модель недостаточного соответствия не соответствует требованиям, поскольку у нее недостаточно дисперсии, что приводит к неизменно высоким ошибкам смещения. Это означает, что при разработке модели вам необходимо найти правильную величину дисперсии или правильную степень сложности модели. Ключевым моментом является повышение сложности модели, тем самым уменьшая смещение и увеличивая дисперсию, пока смещение не будет сведено к минимуму и пока не станут очевидными значительные ошибки дисперсии.

Другое решение - увеличить размер набора данных, используемого для обучения вашей модели. Ошибки с высокой дисперсией, также называемые моделями переобучения, возникают из-за создания модели, которая слишком сложна для доступного набора данных. Если вы можете использовать больше данных для обучения модели, вы можете создать более сложную модель без случайного добавления ошибки дисперсии.

К сожалению, этот трюк не помогает уменьшить ошибку смещения. Модель с низким смещением или модель недостаточного соответствия не чувствительна к обучающим данным. Следовательно, увеличение размера набора данных не улучшит модель значительно; он не может отреагировать на изменение. Решением проблемы высокого смещения является более высокая дисперсия, что обычно означает добавление дополнительных данных.

Где я могу узнать больше?

Я написал несколько статей на похожие темы. One, на который несколько раз ссылались в этой статье, обсуждает детали моделей с недостаточной и избыточной посадкой и дает соответствующие примеры. Второй концептуально обсуждает процесс разработки, проверки и тестирования модели, который вы можете использовать, чтобы определить, насколько модель хорошо соответствует набору данных. Этот процесс поможет вам решить, есть ли у вас необходимое количество дисперсии в модели, и поможет определить, нужно ли вам добавлять дополнительные данные.

Наконец, я многому научился из своих исходных концепций науки о данных, прочитав книгу Джоэла Груса Наука о данных с нуля: первые принципы с Python. В его книге представлены многие фундаментальные концепции науки о данных и приведены примеры кода, которые помогут вам разработать некоторые начальные функции на Python.

Собираем все вместе

Смещение и дисперсия - два ключевых термина в науке о данных и разработке моделей. Вместе они описывают две ключевые ошибки, которые могут возникнуть при создании моделей. Под смещением понимается постоянная ошибка во всех точках, представляющая модель, которая недостаточно сложна для сбора набора данных. Дисперсия относится к модели, которая слишком сложна для набора данных, часто действуя так, как будто в наборе данных есть тенденции, которых на самом деле не существует.

Эти два типа ошибок приводят к известному компромиссу смещения и отклонения. Решением проблемы высокого смещения модели является добавление большей дисперсии. Но добавление слишком большой дисперсии приводит к ошибкам дисперсии. Таким образом, это становится балансирующим действием: создание модели с достаточной дисперсией для захвата набора данных и уменьшения ошибки смещения, но не создание модели с такой большой дисперсией, которая добавляет ошибку дисперсии.

Если невозможно найти решение с низким смещением и малой ошибкой дисперсии, вам необходимо найти и добавить больше данных. Большой набор данных позволяет создавать более сложную модель без добавления значительной ошибки дисперсии. Таким образом, вы можете создать достаточно сложную модель, чтобы свести к минимуму ошибку смещения, но не настолько сложную, чтобы она добавляла значительную ошибку дисперсии.