Смещение и Дисперсия, возможно, наиболее важные концепции в машинном обучении (ML). Существует много хорошей литературы по машинному обучению, объясняющей смещение, дисперсию и компромисс смещения-дисперсии. Кроме того, часто специалисты по машинному обучению полагают, что увеличение систематической ошибки обязательно приведет к увеличению дисперсии и наоборот. Хотя это возможно, но не всегда.

Эта статья предназначена для объяснения предвзятости и вариативности на абстрактном уровне для энтузиастов машинного обучения, верящих, что эти знания помогут им лучше оценить существующие методы оптимизации машинного обучения .

Какова цель алгоритма машинного обучения?

Задача любого алгоритма прогнозирующего машинного обучения - максимально точно оценить функцию, просмотрев входные и выходные данные этой функции, то есть данные.

Функция, которую мы оцениваем, называется истинной функцией, F *, а оцениваемая функция также называется обученной функцией, F ^. Обратите внимание, что истинная функция неизвестна (поэтому мы пытаемся ее оценить!). Это показано на рисунке 1.

Как алгоритм машинного обучения пытается решить проблему?

Алгоритм машинного обучения определяет «функциональный класс» или «пространство поиска», и процесс обучения пытается максимально приблизиться к (неизвестной) истинной функции в этом функциональном классе.

Другими словами, определение алгоритма фиксирует класс функции, тем самым определяя лучшую функцию, F ^ лучшую, до которой может добраться наш процесс обучения.

Расстояние между ближайшей точкой этой наилучшей функции F ^ best и истинной функцией F * называется смещением.

Независимо от того, насколько хорош процесс обучения или какой объем обучающих данных доступен, он может привести нас только к этой лучшей функции. Следовательно, как только мы выбираем алгоритм машинного обучения для нашей проблемы, мы также устанавливаем верхнюю границу смещения. Это показано на рисунке 2.

Теперь давайте сравним 2 алгоритма машинного обучения, скажем, Algo1 и Algo2. Как только мы определяем алгоритмы, наше пространство поиска или функциональный класс фиксируется, и, таким образом, смещение для обоих алгоритмов также фиксируется. Рисунок 3 иллюстрирует это сравнение, когда поисковые пространства обоих алгоритмов не пересекаются. В общем, разные алгоритмы не обязательно должны иметь непересекающиеся области поиска.

Чтобы сделать обсуждение конкретным, предположим, что алгоритм 1 - это Нейронная сеть (NN), а алгоритм 2 - Линейная регрессия (LR). NN принадлежит к классу нелинейных алгоритмов, тогда как линейная регрессия ищет в классе линейных функций. Интуитивно понятно, что функциональный класс LR меньше, чем функциональный класс NN, и должен находиться внутри функционального класса NN, как показано на рисунке 4.

Без смещения

Смещение уменьшается до 0, если истинная функция находится внутри выбранного пространства поиска или класса функции, как показано на рисунке 5.

Однако практически невозможно определить, равно ли смещение нулю как истинная функция в неизвестном для всех реальных проблем.

Из приведенного выше объяснения легко сделать вывод, что смещение можно уменьшить, выбрав алгоритм, охватывающий пространство поиска текущего алгоритма.

Однако этот метод уменьшения систематической ошибки за счет расширения пространства поиска не гарантирует хорошей точности тестового набора. Чтобы добиться хорошей производительности, необходимо также позаботиться о зле дисперсии.

Что такое дисперсия?

«Дисперсия» или «чрезмерная подгонка» - это мера степени, в которой параметры модели (и, следовательно, прогнозы) изменяются с вариациями в обучающих данных.

В качестве крайнего примера рисунок 6 расширяет рисунок 2, чтобы включить наихудшую усвоенную функцию, F ^ наихудшую. Это может быть выбрано с помощью нашего модельного класса функций. Технически наша изученная функция может быть любой функцией от F ^ наилучшего до F ^ наихудшего. Итак, на высоком уровне мы можем сказать, что модель с большим пространством поиска может иметь большую дисперсию.

Однако, если у нас достаточно случайно выбранных обучающих данных и / или подходящим образом выбран метод уменьшения дисперсии, такой как регуляризация, дисперсия может быть ограничена. На рисунке 7 показана модель, которая при обучении на различных наборах случайных обучающих примеров приводит к получению усвоенной функции с низкой дисперсией.

Я надеюсь, что это абстрактное объяснение поможет немного лучше понять эти концепции.

Кредиты: На этот пост влияет способ Prof. Джером Фридман освещает эти темы в своих курсах в Стэнфордском университете. (Любые ошибки были бы моими!)

Как всегда, приветствую любые комментарии.

Спасибо за чтение!