Понимание концепции компромисса смещения и дисперсии в моделях машинного обучения.

Как специалисты по данным, мы должны разработать модель с низкими ошибками прогнозирования (низкое смещение и низкая дисперсия). Один из самых простых методов расчета правильности модели — вычисление ошибки между фактическим значением и прогнозируемым значением. В хорошей модели будет меньше ошибок.

Прежде чем перейти к компромиссу смещения и дисперсии, давайте освежим некоторые основные термины.

Что такое поезд/тест

Разделение тестового поезда — это метод, используемый для измерения точности модели, и его можно использовать для любого алгоритма обучения с учителем.

В этом методе набор данных разбивается на два набора: обучающий набор и тестовый набор. Учебный набор используется для обучения модели, т.е. используется для создания модели. А с другой стороны, тестовый набор используется для проверки модели, т.е. используется для проверки точности модели на невидимых данных.

Что такое предвзятость

Смещение используется для измерения точности модели при захвате шаблона в наборе обучающих данных. Более высокое смещение снижает точность модели при захвате закономерности и называется недообучением. С другой стороны, чем ниже смещение, тем выше точность модели при захвате закономерности, и это называется переоснащением. И среднее смещение будет хорошей подгонкой, которая является золотым пятном между недообучением и переоснащением.

Более высокое смещение означает получение высокой ошибки при обучении модели на обучающем наборе данных, а, с другой стороны, более низкое смещение означает получение низкой ошибки при обучении модели на обучающем наборе данных.

Что такое дисперсия

В структуре анализа данных после моделирования мы должны оценить производительность модели, используя некоторые невидимые тестовые данные. Можно сказать, что разница между ошибкой обучения и ошибкой теста — это дисперсия.

Когда ошибка теста сильно зависит от ошибки поезда, мы называем это большей дисперсией. С другой стороны, если между ошибкой обучения и ошибкой теста нет значительных различий, то мы называем это меньшей дисперсией.

например, если среднеквадратическая ошибка MSE модели для обучающих данных равна 0, а для тестовых данных равна 30, то это называется высокой дисперсией.

(Примечание: все значения ошибок представляют собой числа, обозначающие дисперсию)

Как видно из таблицы 1.1, модель 1 имеет низкую ошибку обучения, но при проверке с использованием некоторых невидимых данных ошибка больше, поэтому она имеет высокую дисперсию, а модель 2 не имеет значительных изменений в ошибке обучающих и тестовых данных, поэтому она имеет низкую дисперсию. Модель 3 также имеет высокую ошибку в обучении и тестировании, поэтому дисперсия меньше, но с большим смещением.

Если мы используем разные выборки обучающего набора данных и ошибка для разных выборок слишком разная, то это также называется высокой дисперсией.

Компромисс между предвзятостью и дисперсией

Смещение и дисперсия дополняют друг друга. На практике меньшее смещение приводит к большей дисперсии и наоборот. По этой причине мы называем это компромиссом смещения и дисперсии. Увеличение смещения приведет к уменьшению дисперсии, что является случаем недообучения. В этом случае, когда смещение в обучающем наборе увеличивается, увеличивается ошибка обучения, что также приводит к увеличению ошибки теста. Здесь из-за меньшей изменчивости ошибки теста и ошибки поезда дисперсия уменьшится. Модель с высоким смещением и низкой дисперсией не будет считаться хорошей моделью.

С другой стороны, уменьшение смещения приводит к увеличению дисперсии, что является случаем переобучения. Здесь, если мы попытаемся значительно уменьшить ошибку обучения, что означает, что вместо обобщения мы запоминаем точки данных, это приведет к снижению способности модели прогнозировать, поэтому, когда мы используем модель для прогнозирования значений для теста данные (невидимые данные), ошибка теста будет больше. Из-за изменчивости ошибки теста и ошибки поезда дисперсия будет увеличиваться. Модель с низким смещением и высокой дисперсией также не считается хорошей моделью.

Основная цель машинного обучения — иметь низкое смещение и низкую дисперсию. Мы должны найти золотую середину между моделью переоснащения и моделью недообучения.

давайте разберемся в компромиссе между смещением и дисперсией, используя диаграмму «бычий глаз» вместе с распределением ошибок.

На приведенном выше рисунке 1.3 центр концентрической окружности представляет нулевую ошибку.

  • В случае Большое смещение + высокая точность (высокое смещение, низкая дисперсия) вы можете видеть, что он сильно смещен (т. е. все точки находятся далеко от центра), но дисперсия низкая, что является недостаточно подогнанной моделью.
  • При отсутствии смещения + высокая точность (низкое смещение, низкая дисперсия) вы можете видеть, что дисперсия низкая, а также менее предвзятая. что является хорошей моделью и труднодостижимо.
  • В случае Большое смещение + низкая точность (высокое смещение, высокая дисперсия) вы можете видеть, что дисперсия высока, но в то же время она более смещена.
  • В Без смещения + низкая точность (низкое смещение, высокая дисперсия) вы можете видеть, что дисперсия более, но менее смещена, что является переобученной моделью.

Достаточно богат, чтобы выразить основную структуру данных, и достаточно прост, чтобы избежать ложного шаблона.

Математическое представление

Давайте рассмотрим человека, пытающегося предсказать целевое значение (ϴ) с помощью модели. Модель предсказала четыре разных значения для четырех разных выборок обучающих наборов данных, представленных четырьмя зелеными точками, как показано на рисунке 1.4.

В этом случае смещение — это разница между средней оценкой из разных обучающих выборок (красная пунктирная линия) и истинным значением (красная точка). Математически предвзятость представляется как:

где ϴ — цель, обозначенная красной точкой на рис. 1.4. и E(ϴ) — точечная оценка, которая является оценкой четырех различных обучающих выборок, представленных прослеживаемыми кривыми, показанными на рис. 1.4.

Дисперсия дает оценку того, насколько оценка меняется при изменении выборки обучающих данных. Математически дисперсия представлена ​​​​как:

Приведенная выше формула представляет расчетные квадраты расстояний средней оценки (красная пунктирная линия) и индивидуальных оценок (зеленые точки).

Разложение смещения-дисперсии

Разложение дисперсии смещения — это теоретический инструмент для понимания характеристик эффективности алгоритма обучения.

Разложение смещения-дисперсии — это не что иное, как разложение общей ошибки с точки зрения смещения и дисперсии.

Общая ошибка = смещение²+ дисперсия + неустранимая ошибка

Неустранимая ошибка — это ошибка, которую мы не можем устранить с помощью нашей модели или любой другой модели. А смещение и дисперсия — это уменьшаемые ошибки.

Из рисунка 1.5 видно, что слишком простая модель (меньшее значение по оси x) приводит к высокому смещению и низкой дисперсии, что приводит к высокой общей ошибке. С другой стороны, если модель станет слишком сложной, это приведет к высокой дисперсии и низкому смещению, что также приведет к высокой общей ошибке. Поэтому нам нужно найти золотую середину между слишком простым и слишком сложным, что является оптимальной сложностью модели, показанной пунктирной линией на рисунке 1.5. А также вы можете увидеть компромисс между смещением и дисперсией на рисунке 1.5.

Левая часть линии оптимальной сложности модели соответствует случаю недообучения, а правая — переоснащению.

Для простоты демонстрации давайте разложим квадрат потери ошибки с точки зрения смещения и дисперсии.

Тем не менее, существует множество методов, используемых для преодоления проблем недообучения и переобучения в отраслях. некоторые из методов включают регуляризацию, перекрестную проверку, методы ансамбля и т. д.

Спасибо за прочтение!!!