Всегда сложно построить хорошо обобщенную модель в машинном обучении с учителем. Машинное обучение с учителем — один из наиболее часто используемых и успешных типов машинного обучения. Говорят, что модель хорошо обобщена, когда модель способна делать точные прогнозы/классификации невидимых данных.

Обобщение необходимо для машинного обучения; то, что алгоритм обучения хорошо соответствует обучающим данным, не означает, что это хорошая модель машинного обучения. Это может привести к завышению данных и сделать ложный прогноз. Мы должны убедиться, что модель хорошо подходит, прежде чем развертывать ее.

Как правило, производительность модели измеряется с точки зрения ошибки обобщения, также известной как ошибка прогнозирования/ошибка теста. Обычно мы строим модель, которая может делать точные прогнозы на обучающем наборе данных, и мы ожидаем, что модель также будет делать точные прогнозы на тестовых данных. Однако иногда этого не происходит; это ошибка обобщения. Он измеряет, насколько точно алгоритм или статистическая модель могут предсказать выходные значения для ранее невиданных данных.

В этой статье мы обсудим смещение и дисперсию модели и то, как они связаны с переоснащением и недообучением.

Переобучение происходит, когда статистическая модель или алгоритм машинного обучения хорошо соответствуют обучающим данным. Но, к сожалению, модель не может точно предсказать результат на новых невидимых данных.

Как правило, при переобучении, если модель слишком долго обучалась на одних и тех же обучающих данных, она изучает используемые шаблоны; однако он также изучает шум или случайные колебания в обучающих данных в качестве концепций. Вместо изучения нужных паттернов модель начинает запоминать обучающие данные. В результате он хорошо работает с обучающими данными, но не обобщает невидимые данные, поскольку эти концепции не применяются к новым невидимым данным.

Недостаточное соответствие происходит, когда статистическая модель или алгоритм машинного обучения не могут уловить шаблон обучения или значимую связь между входными и выходными переменными, что приводит к тому, что модель не работает хорошо на обучающих данных и не обобщает новые невидимые данные.

Недообучение противоположно переоснащению. Недообучение происходит, когда модели не были обучены в течение достаточного времени или имеют входные переменные, которые недостаточно значимы, чтобы найти взаимосвязь между входными и выходными переменными. В результате он генерирует большие ошибки обучения и тестирования.

Недоподготовка не так обсуждается, как проблема переобучения, поскольку недообученные модели или алгоритмы легче идентифицировать, чем переобученные модели, поскольку они приводят к большой ошибке обучения.

На практике мы обычно можем вычислить ошибку обучения, но оценка ошибки теста является относительно сложной задачей, поскольку тестовые данные недоступны.

Один из способов понять оценку модели — интерпретировать систематическую ошибку и дисперсию модели. Ошибка обобщения всегда разбивается на три основные величины: ошибку Дисперсия, ошибку Квадрат смещения и Дисперсия неустранимой ошибки в данных.

Следующее уравнение дает математическое представление ошибки теста:

Ошибка (ошибка прогноза) = ошибка отклонения + ошибка [смещения]² + неустранимая ошибка

Здесь Ошибка – это ожидаемая ошибка теста, которая относится к средней ошибке теста, полученной после многократного обучения алгоритма с использованием большого количества обучающих наборов и тестирования каждого из них.

Чтобы свести к минимуму ожидаемую выше ошибку теста, мы должны выбрать статистическую модель или алгоритм машинного обучения с низкой дисперсией и низким смещением.

Из приведенного выше уравнения мы можем сказать, что ошибка никогда не будет меньше, чем дисперсия неприводимой ошибки, поскольку и смещение, и дисперсия являются неотрицательными условиями, и даже если модель способна достичь нулевого смещения и нулевая дисперсия, Ошибка всегда будет равна дисперсии неустранимой ошибки.

Неустранимая ошибка – это ошибка, возникающая из-за некоторого шума в обучающих наборах данных или неизвестных переменных, которую мы не можем уменьшить с помощью какого-либо алгоритма или статистического метода. Итак, мы должны сосредоточиться на минимизации смещения и дисперсии, чтобы минимизировать ошибку теста.

Понимание дисперсии

По определению,

Ошибка дисперсии — это величина, на которую изменилось бы прогнозируемое значение, если бы мы оценили его, используя другой набор обучающих данных.

Ошибка дисперсии возникает из-за чувствительности модели к колебаниям в наборе данных, возникающим, когда мы добавляем новые точки данных, функции или любой шум и случайность в данных.

Как правило, статистическая модель или алгоритмы подбираются с использованием обучающих данных. Различные наборы обучающих данных приведут к разным значениям прогноза. Однако эти прогнозируемые значения не должны сильно различаться. Эти вариации в прогнозах относятся к ошибке дисперсии модели.

Давайте лучше разберемся с различными обучающими наборами данных с перекрестной проверкой. При k-кратной перекрестной проверке обучающие данные разбиваются на k меньших наборов, где модель обучается с использованием k-1 сгиба в качестве обучающих данных, а результирующая модель оценивается на оставшейся части данных, т. е. используется в качестве тестового набора для вычисления показатель эффективности такой mean_squared_error. Затем измеряется производительность k-кратной перекрестной проверки, просто взяв среднее значение каждой модели.

  • Предположим, мы разделили обучающие наблюдения {(X1, y1), (X2, y2), (X3, y3), ...,(Xn, yn))} на пятикратную перекрестную проверку, разбив данные на пять небольших обучающих примеров.
  • Затем мы подгоняем модель к этим пяти различным подмножествам больших обучающих наборов. Сейчас у нас пять моделей.
  • После подгонки модели мы оцениваем неизвестную приблизительную функцию y_hat , где мы ожидаем, что предсказанные значения y_hat приблизительно равны y1, y2, y3, ..., yn.
  • Когда мы пытаемся предсказать новые невидимые тестовые данные(X0, y0), используя эти пять разных моделей, предсказание пяти значений для новых входных данных X0 из ранее обученных пяти моделей должно быть похожим и приблизительно равным выходному значению y0.

Дисперсия показывает, как результаты модели меняются с изменением набора данных. Разброс этих пяти предсказанных значений относится к ошибке дисперсии в ошибке предсказания. Если они близки друг к другу, модель имеет низкую дисперсию. И наоборот, если прогнозируемые значения далеки друг от друга, модель имеет высокую дисперсию.

На дисперсию больше влияют шум и случайность в точках данных. Высокая дисперсия делает модель слишком чувствительной к выбросам или случайному шуму вместо того, чтобы хорошо обобщать. Например, линейные модели делают прогнозы, исходя из предположения, что существует линейная зависимость между входными и выходными переменными, и структура данных практически не влияет на нее. В то время как в дереве решений прогноз зависит от набора данных. Если набор данных состоит из выбросов, то эта модель дерева решений будет давать плохие прогнозы и иметь более высокую дисперсию, чем модель линейной регрессии.

На приведенном выше рисунке синий кружок представляет собой идеальную модель, которую мы можем иметь, учитывая все комбинации данных, которые мы можем получить. Каждая оранжевая точка — это прогноз, сделанный моделью, которую мы изучили на разных подмножествах обучающих данных.

На переобученную модель сильно влияет Ошибка отклонения прогноза. Модель, которая очень сложна или имеет большое количество функций/атрибутов, более склонна к переобучению данных. Они более чувствительны к выбросам или небольшим изменениям в обучающих данных, которые могут привести к большим изменениям прогнозируемых значений. Как правило, переобученная модель обычно имеет высокую дисперсию.

Принимая во внимание, что недообученная модель будет иметь чрезвычайно низкую дисперсию, поскольку модель не будет изучать какие-либо шаблоны или не будет зависеть от какого-либо подмножества данных, которые она получает, и предсказывает постоянные значения.

Понимание предвзятости

По определению,

Ошибка смещения — это средняя разница между фактическим значением и прогнозируемыми значениями оценщика по модели по всем возможным наборам обучающих данных.

Смещение — это ошибка, возникающая из-за неправильных предположений модели о параметрах данных. Учитывая приведенный выше пример, мы разделили наши обучающие наборы данных на пять подмножеств и обучили нашу модель на этих подмножествах. Из-за основного шума и случайности в данных прогнозы для новых входных данных (X0, y0), сделанные этими подмножествами, не всегда будут одинаковыми, и bias пытается измерить эти различия между фактическими и прогнозируемыми значениями. Таким образом, смещение представляет собой среднюю ошибку аппроксимации, которую модель будет иметь по подмножеству всего этого обучающего набора данных.

На предвзятость влияют неправильные предположения модели о данных и шаблонах. Например, алгоритм линейной регрессии предполагает, что связь между входом (X) и выходом (y) всегда линейна, даже если данные не имеют такой связи, тогда как дерево решений не делает таких предположений о структурах данных и является чисто изучает закономерности из данных. Следовательно, линейная модель, как правило, имеет более высокое смещение, чем модель дерева решений.

Переобученная модель — это слишком сложная модель с большим количеством признаков. По мере увеличения сложности модели модель узнает больше о тенденциях и закономерностях в данных, что поможет предсказать точный результат. В среднем переобученная модель будет работать лучше, чем недообученная. Следовательно, переобученная модель обычно имеет ошибку Низкое смещение.

На недообученную модель сильно влияет Ошибка смещения прогноза, и обычно она имеет ошибки Высокое смещение и Низкое отклонение.

Модели с высоким смещением и низкой дисперсией представлены на приведенном выше рисунке, который имеет тенденцию делать постоянные прогнозы независимо от набора данных, на котором построены модели. Он не изучит необходимые закономерности и взаимосвязи в обучающих данных, которые необходимы для создания правильных прогнозов, и создаст ложное предположение о данных из-за высокой ошибки смещения. В результате он не сможет хорошо обобщать.

Компромисс смещения и дисперсии

По мере увеличения сложности модели дисперсия увеличивается, а смещение уменьшается. Эта относительная скорость изменения этих двух величин определяет, увеличивается или уменьшается ошибка теста.

Когда мы увеличиваем сложность модели, смещение сначала уменьшается, а дисперсия увеличивается. Следовательно, ожидаемая ошибка также уменьшается. Однако в какой-то момент увеличение сложности мало влияет на систематическую ошибку, но значительно увеличивается дисперсия, что увеличивает ожидаемую ошибку теста.

Когда мы уменьшаем сложность модели, ошибка теста уменьшается, поскольку дисперсия уменьшается, а смещение увеличивается. Однако, когда мы увеличиваем сложность модели, дисперсия увеличивается, но смещение уменьшается за счет уменьшения ошибки теста.

Эта взаимосвязь между смещением, дисперсией и ошибкой теста называется компромисс между смещением и дисперсией. Хорошая производительность набора тестов статистической модели или алгоритма машинного обучения требует низкой дисперсии и малого квадрата смещения, что практически невозможно.

Легко получить алгоритм с низким смещением, но высокой дисперсией (модель с переобучением) или алгоритм с низкой дисперсией, но с высоким смещением (модель с недообучением).

Задача состоит в том, чтобы построить модель, которая находит баланс между компромиссом смещения и дисперсии. На практике невозможно явно вычислить ошибку теста, смещение или дисперсию невидимых данных для модели машинного обучения.

Мы по-прежнему можем оценить производительность модели, поняв переоснащение и недообучение модели. Но следует помнить о компромиссе между смещением и дисперсией при выборе и оценке модели машинного обучения. Чтобы уменьшить предвзятость, нам нужно сделать разумные предположения о структуре данных, в то же время мы должны убедиться, что он учится на данных и не переопределяет их.

Компромисс между смещением и дисперсией — одна из запутанных концепций машинного обучения. Я надеюсь, что это поможет вам понять предвзятость и дисперсию, а также их компромиссы.

Спасибо за чтение!

Ресурсы: