Компромисс смещения и дисперсии ... Я всегда путаю эти два понятия!

Если вы похожи на меня и всегда путаете, что такое Bias и Variance, прочтите этот пост, чтобы узнать, что вам нужно!

Цель любого алгоритма машинного обучения - наилучшим образом оценить функцию отображения (f) для целевой переменной (y) с учетом входных данных (x). Ошибка генерации функции может быть выражена как сумма трех очень разных ошибок:

  • Ошибка смещения;
  • Ошибка отклонения;
  • Неприводимая ошибка.

Понимание того, как различные источники ошибок могут влиять на смещение и отклонения алгоритма машинного обучения, помогает нам улучшить процесс подбора данных, позволяя получать более точные модели.

Ошибка смещения

Ошибка смещения измеряет, насколько в целом ожидаемое предсказание нашей модели отличается от правильного значения, которое она пытается предсказать, поэтому делает эту часть обобщения связанной с неправильными предположениями. Другими словами, смещение относится к ошибке, которая возникает при приближении реальной проблемы, которая может быть чрезвычайно сложной, гораздо более простой моделью.

Обычно параметрические алгоритмы имеют большое смещение, что делает их более понятными, но в целом менее гибкими.

  • Низкое смещение: модель делает хорошие предположения о форме целевой функции.

Примеры: деревья решений, k-ближайшие соседи и машины опорных векторов.

  • Сильное смещение: модель часто далека от формы целевой функции. Например, предположим, что данные линейны, хотя на самом деле они квадратичны. Модель с высоким смещением, скорее всего, не соответствует обучающим данным.

Примеры: линейная регрессия, линейный дискриминантный анализ и логистическая регрессия.

Ошибка отклонения

Дисперсия относится к тому, насколько изменилась бы наша функция отображения, если бы мы оценили ее с использованием другого набора обучающих данных. Следовательно, дисперсия связана с чрезмерной чувствительностью модели к небольшим изменениям, которые могут существовать в загружаемых обучающих данных.

Например, если модель имеет высокую дисперсию, небольшие изменения в обучающих данных могут привести к значительным изменениям в прогнозе цели. Обычно непараметрические алгоритмы машинного обучения, которые обладают большой гибкостью, имеют высокую дисперсию.

  • Низкая дисперсия: внесет небольшие изменения в функцию сопоставления с изменениями в наборе обучающих данных;

Примеры: линейная регрессия, линейный дискриминантный анализ и логистическая регрессия.

  • Высокая дисперсия: приведет к большим изменениям функции сопоставления с изменениями в наборе обучающих данных.

Примеры: деревья решений, k-ближайшие соседи и машины опорных векторов.

Неприводимая ошибка

Эта часть обобщения связана с шумностью самих данных. Единственный способ уменьшить влияние этой проблемы - очистить данные.

Компромисс смещения и отклонения

Цель любой модели машинного обучения с учителем - добиться низкого уровня систематической ошибки и дисперсии. Причина, по которой это называется компромиссом, заключается в том, что с увеличением сложности модели дисперсия будет увеличиваться, а смещение уменьшаться, тогда как с более простыми моделями смещение увеличивается, а дисперсия уменьшается.

В основе этого вопроса, борьба с предвзятостью и отклонениями, на самом деле, заключается в том, чтобы иметь дело с перебором и недостаточным соответствием. Например, по мере добавления дополнительных параметров в модель сложность модели увеличивается, а также увеличивается дисперсия. Следовательно, дисперсия теперь является нашей основной проблемой, тогда как систематическая ошибка имеет тенденцию уменьшаться.

В заключение, идеальная сложность модели - это та, в которой увеличение смещения эквивалентно уменьшению дисперсии. Следовательно, если наша модель превышает это сладкое место, тогда мы имеем дело с переобучением, тогда как если наша сложность не соответствует требованиям, мы не подгоняем модель. К сожалению, нет аналитического способа измерить эту золотую середину. Вместо этого мы должны измерить нашу ошибку прогнозирования с помощью функций стоимости, исследовать различные уровни сложности модели, а затем выбрать уровень, который минимизирует общую ошибку.

Не забывайте, если вам это нравится, пожалуйста, поаплодируйте!