Обзор смещения и дисперсии

Смещение - это упрощающие допущения, сделанные моделью для облегчения изучения целевой функции. Предвзятость - это эгоцентрический подход, который показывает, насколько решения далеки от данных. (Говоря языком непрофессионала, у предвзятости есть свое эго, и его не волнуют данные)

Как правило, линейные алгоритмы имеют большое смещение, что делает их быстрыми для изучения и более легкими для понимания, но в целом менее гибкими. Что касается прогностической эффективности, они не очень хорошо справляются со сложными проблемами, которые не соответствуют упрощающим предположениям. Сильная предвзятость может привести к недостаточной подгонке данных, потому что, если у нас есть сильная предвзятость, он будет делать предположения, даже не заботясь о данных.

  • Высокий сдвиг: предлагает дополнительные предположения о форме целевой функции. Алгоритмы машинного обучения с высоким смещением включают линейную регрессию, линейный дискриминантный анализ и логистическую регрессию.
  • Низкое смещение: предлагает меньше предположений о форме целевой функции. Алгоритмы машинного обучения с низким смещением включают деревья решений, k-ближайших соседей и машины опорных векторов.

Дисперсия - это величина, на которую изменится оценка целевой функции, если использовались разные данные обучения. Это относится к чувствительности алгоритма к конкретным наборам обучающих данных, то есть к тому, насколько изменяется прогноз модели машинного обучения, если вы тренируетесь на разных наборах обучающих данных. (В терминологии непрофессионала под дисперсией понимается точное отслеживание точек данных, т. Е. Плыть по течению)

Алгоритмы машинного обучения с высокой дисперсией сильно зависят от специфики обучающих данных. Алгоритм машинного обучения с высокой дисперсией чрезвычайно восприимчив к данным, что может привести к переобучению обучающих данных.

  • Высокая дисперсия: предлагает большие изменения оценки целевой функции с изменениями в наборе обучающих данных. Алгоритмы машинного обучения с высокой дисперсией включают деревья решений, k-ближайших соседей и машины опорных векторов.
  • Низкая дисперсия: предлагает небольшие изменения в оценке целевой функции с изменениями в наборе обучающих данных. Алгоритмы машинного обучения с низкой дисперсией включают линейную регрессию, линейный дискриминантный анализ и логистическую регрессию.

Дихотомия смещения и отклонения

Идея здесь заключается в том, что, хотя добавление сложности к модели машинного обучения может улучшить соответствие обучающим данным, это не должно улучшать точность прогнозирования обучающих данных (то есть новых данных).

Из приведенного выше рисунка мы видим, что по мере увеличения сложности модели соответствие данных тестирования становится лучше, если внимательно следить за соответствием набора обучающих данных. Ошибка прогнозирования для данных тестирования уменьшается с увеличением сложности модели до определенного момента (ошибка прогнозирования минимальна, когда достигается правильная сложность модели, также называемая «зона наилучшего восприятия»), затем ошибка прогнозирования увеличивается для дальнейшего увеличения модели. сложность.

Здесь изображена бритва Оккама, которая гласит, что «Сущности не должны умножаться без необходимости». В контексте машинного обучения это означает, что излишнее увеличение сложности модели приведет к относительно плохому результату по сравнению с простой моделью.

Пример

Автомобиль предвзятости - это тот, который делает упрощающие предположения, не заботясь о данных, и независимо от того, каким образом мы будем тренироваться, он не будет делать ничего по-другому. Но с другой стороны, если мы сделаем машину, которая чрезвычайно восприимчива к данным (т.е. с высокой дисперсией), то она сможет копировать только то, что видела раньше. Проблема с этой моделью в том, что она очень плохо реагирует на ситуации, которых раньше не видела, потому что у нее нет правильного предубеждения для обобщения на новые данные.

Заключение

На самом деле нам нужно что-то посередине с некоторой степенью смещения и дисперсии, называемое компромиссом смещения и дисперсии. Оптимальная модель машинного обучения должна иметь некоторые полномочия для обобщения, но в то же время она должна быть очень открытой для прослушивания данных.

Если вы хотите узнать больше или хотите, чтобы я написал больше по этой теме, не стесняйтесь обращаться к нам…

Мои социальные ссылки: LinkedIn | Твиттер | Github

Если вам понравился этот пост или он оказался полезным, пожалуйста, нажмите на кнопку хлопка на минутку, это повысит видимость публикации для других пользователей среднего уровня.

Использованная литература: