Компромисс смещения и дисперсии ... Я всегда путаю эти два понятия!
Если вы похожи на меня и всегда путаете, что такое Bias и Variance, прочтите этот пост, чтобы узнать, что вам нужно!
Цель любого алгоритма машинного обучения - наилучшим образом оценить функцию отображения (f) для целевой переменной (y) с учетом входных данных (x). Ошибка генерации функции может быть выражена как сумма трех очень разных ошибок:
- Ошибка смещения;
- Ошибка отклонения;
- Неприводимая ошибка.
Понимание того, как различные источники ошибок могут влиять на смещение и отклонения алгоритма машинного обучения, помогает нам улучшить процесс подбора данных, позволяя получать более точные модели.
Ошибка смещения
Ошибка смещения измеряет, насколько в целом ожидаемое предсказание нашей модели отличается от правильного значения, которое она пытается предсказать, поэтому делает эту часть обобщения связанной с неправильными предположениями. Другими словами, смещение относится к ошибке, которая возникает при приближении реальной проблемы, которая может быть чрезвычайно сложной, гораздо более простой моделью.
Обычно параметрические алгоритмы имеют большое смещение, что делает их более понятными, но в целом менее гибкими.
- Низкое смещение: модель делает хорошие предположения о форме целевой функции.
Примеры: деревья решений, k-ближайшие соседи и машины опорных векторов.
- Сильное смещение: модель часто далека от формы целевой функции. Например, предположим, что данные линейны, хотя на самом деле они квадратичны. Модель с высоким смещением, скорее всего, не соответствует обучающим данным.
Примеры: линейная регрессия, линейный дискриминантный анализ и логистическая регрессия.
Ошибка отклонения
Дисперсия относится к тому, насколько изменилась бы наша функция отображения, если бы мы оценили ее с использованием другого набора обучающих данных. Следовательно, дисперсия связана с чрезмерной чувствительностью модели к небольшим изменениям, которые могут существовать в загружаемых обучающих данных.
Например, если модель имеет высокую дисперсию, небольшие изменения в обучающих данных могут привести к значительным изменениям в прогнозе цели. Обычно непараметрические алгоритмы машинного обучения, которые обладают большой гибкостью, имеют высокую дисперсию.
- Низкая дисперсия: внесет небольшие изменения в функцию сопоставления с изменениями в наборе обучающих данных;
Примеры: линейная регрессия, линейный дискриминантный анализ и логистическая регрессия.
- Высокая дисперсия: приведет к большим изменениям функции сопоставления с изменениями в наборе обучающих данных.
Примеры: деревья решений, k-ближайшие соседи и машины опорных векторов.
Неприводимая ошибка
Эта часть обобщения связана с шумностью самих данных. Единственный способ уменьшить влияние этой проблемы - очистить данные.
Компромисс смещения и отклонения
Цель любой модели машинного обучения с учителем - добиться низкого уровня систематической ошибки и дисперсии. Причина, по которой это называется компромиссом, заключается в том, что с увеличением сложности модели дисперсия будет увеличиваться, а смещение уменьшаться, тогда как с более простыми моделями смещение увеличивается, а дисперсия уменьшается.
В основе этого вопроса, борьба с предвзятостью и отклонениями, на самом деле, заключается в том, чтобы иметь дело с перебором и недостаточным соответствием. Например, по мере добавления дополнительных параметров в модель сложность модели увеличивается, а также увеличивается дисперсия. Следовательно, дисперсия теперь является нашей основной проблемой, тогда как систематическая ошибка имеет тенденцию уменьшаться.
В заключение, идеальная сложность модели - это та, в которой увеличение смещения эквивалентно уменьшению дисперсии. Следовательно, если наша модель превышает это сладкое место, тогда мы имеем дело с переобучением, тогда как если наша сложность не соответствует требованиям, мы не подгоняем модель. К сожалению, нет аналитического способа измерить эту золотую середину. Вместо этого мы должны измерить нашу ошибку прогнозирования с помощью функций стоимости, исследовать различные уровни сложности модели, а затем выбрать уровень, который минимизирует общую ошибку.
Не забывайте, если вам это нравится, пожалуйста, поаплодируйте!