Я начинаю серию дополнительных материалов, которые считаю полезными, когда читал курс статистического обучения, предлагаемый Стэнфордским университетом. Я надеюсь, что эта серия материалов поможет вам лучше разобраться в технических деталях различных тем. Пожалуйста, дайте мне знать, если вы хотите, чтобы я затронул какие-либо темы курса!

Сегодня я собираюсь поговорить о компромиссе смещения и дисперсии в контролируемом обучении, представленном в курсе. На высоком уровне ошибка, допущенная вашей моделью при прогнозировании, может состоять из ошибки смещения, дисперсии и неснижаемой ошибки.

  • Ошибка смещения: ошибка возникает из-за предположений, сделанных на основе модели. Модель, которая проще, чем реальная взаимосвязь между выходными данными и функциями, имеет большое смещение (подгонка данных на квадратный многочлен с помощью линейной модели). Точно так же модель, более сложная, чем взаимосвязь, имеет низкую систематическую ошибку. (аппроксимация данных на линейной линии полиномом высокой степени)
  • Дисперсия: ошибка, возникающая из-за подгонки модели к случайным помехам в обучающих данных (переобучение). Любое возмущение обучающих данных приведет к тому, что прогнозы на эти возмущенные данные будут сильно отличаться от фактической наземной истины.
  • Неприводимая ошибка: ошибка, которую нельзя уменьшить ни одной моделью из-за случайных событий.

Мы не можем уменьшить невосприимчивые ошибки, но мы можем изо всех сил стараться минимизировать их (систематическая ошибка + дисперсия). Было бы здорово, если бы мы смогли минимизировать и то, и другое одновременно, однако на самом деле этого не происходит, отсюда и компромисс между смещением и дисперсией. Компромисс смещения и дисперсии в основном означает, что если мы используем очень сложную модель для соответствия обучающим данным, у нас будет низкое допущение смещения для модели, однако высокая дисперсия прогнозов; Если у нас есть предположение о высоком смещении, дисперсия прогнозов будет низкой.

Давайте разложим ошибку на эти 3 компонента в настройке регрессии среднеквадратических ошибок.

Прежде чем двигаться дальше, давайте определим несколько обозначений.

Смещение подобранной модели определяется как разница в фактическом соотношении между выходными данными и характеристиками и подобранной моделью , т. Е. ожидание f_hat по обучающим данным X. Следовательно,

Дисперсия прогнозов - это, по сути, изменчивость прогнозов относительно среднего (вспомните определение дисперсии). Принимая во внимание ожидания по обучающим данным X, мы имеем

А теперь приступим к выводам.

Теперь, чтобы упростить этот термин, обратите внимание, что f дает детерминированное значение, а E [f_hat] - это среднее значение выходных данных подобранной модели. Следовательно, (f-E [f_hat]) является постоянным значением и может быть исключено из ожидания, а ожидание постоянного значения - это просто само постоянное значение. Также обратите внимание, что E [epsilon] = 0. Следовательно, у нас есть следующие уравнения, которые помогут нам упростить уравнение выше:

Таким образом, термины можно упростить как

Итак, первый член выше - это квадрат смещения, второй член - это неприводимая ошибка (дисперсия эпсилона), а последний член - это дисперсия предсказаний модели. Чтобы упростить третий член, мы можем умножить (E [f_hat] - f_hat) на (f-E [f_hat]) и на эпсилон, следовательно:

Следовательно, математическое ожидание среднеквадратичной ошибки (MSE) можно разложить на 3 члена ошибки, как обсуждалось ранее:

Я получил это, ссылаясь на несколько ссылок, перечисленных ниже. Надеюсь, это поможет.

Использованная литература:

  1. Https://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff
  2. Https://online.stanford.edu/courses/sohs-ystatslearning-statistical-learning