Определение производительности нашей модели - один из важнейших шагов в процессе машинного обучения. Понимание компромисса смещения и дисперсии - важный шаг к интерпретации результатов нашей модели. Несмотря на его тривиальный характер, концепции, лежащие в основе этого компромисса, просты для понимания и позволят нам создавать лучшие и более полезные модели.

Ошибка обобщения любой модели машинного обучения может быть определена как сумма трех различных ошибок:

  1. Неприводимая ошибка: как следует из названия, ее нельзя уменьшить независимо от выбранного нами алгоритма. Он вводится в нашу модель из-за того, как мы формулируем нашу проблему, и может быть вызван неизвестными переменными, которые влияют на прогноз нашей целевой переменной.
  2. Ошибка смещения: она возникает, когда наша модель делает неверные предположения.
  3. Ошибка дисперсии: она вызвана чувствительностью к небольшим изменениям в обучающей выборке.

Когда мы обсуждаем модели прогнозирования, ошибки прогнозирования можно разделить на два основных подкомпонента, которые нас волнуют: ошибка из-за «смещения» и ошибка из-за «дисперсии». Существует компромисс между способностью модели минимизировать смещение и дисперсию. Понимание этих двух типов ошибок может помочь нам диагностировать результаты модели и избежать ошибки чрезмерной или недостаточной подгонки. ~ Скотт Фортман-Роу

В этом сообщении блога мы сосредоточимся на ошибке смещения, ошибке дисперсии и компромиссе смещения и дисперсии.

Ошибка смещения

Смещение - это величина, на которую ожидаемый прогноз нашей модели отличается от фактического целевого значения, то есть насколько наши прогнозы далеки от реальных значений. По сути, предвзятость нашей модели определяется допущениями, которые она делает для прогнозирования нашего целевого значения. Проще говоря, высокая систематическая ошибка означает, что лежащие в основе модели не улавливаются нашим алгоритмом обучения. Такие модели впоследствии приводят к большой ошибке как на обучающем, так и на тестовом наборе.

  • Деревья решений, k-ближайшие соседи и машины опорных векторов - это алгоритмы машинного обучения с низким смещением.
  • Линейная регрессия и Логистическая регрессия - это алгоритмы машинного обучения с высокой степенью систематической ошибки.

Ошибка отклонения

Он определяется как величина, на которую изменится прогноз нашей модели, если мы будем использовать другой обучающий набор. Модели с высокой дисперсией, как правило, уделяют больше внимания данным, представленным в обучающем наборе, и не дают хороших обобщений, т. Е. Не работают на тестовом наборе. Другими словами, такие алгоритмы машинного обучения стараются максимально приспособиться к обучающим данным. Поступая таким образом, они делают сложные предположения, которые могут быть верными только для обучающих данных, и, следовательно, они работают намного хуже на тестовой выборке.

  • Линейная регрессия и Логистическая регрессия - алгоритмы машинного обучения с низкой дисперсией.
  • Деревья решений, k-ближайшие соседи и машины опорных векторов - это алгоритмы машинного обучения с высокой дисперсией.

Компромисс смещения и отклонения

Теперь давайте попробуем понять компромисс между систематической ошибкой и дисперсией с помощью диаграммы «яблочко». Мы уже знаем, что смещение и дисперсия обратно пропорциональны друг другу, т.е. если смещение увеличивается, то дисперсия уменьшается, и наоборот.



Мы предполагаем, что центр диаграммы - это модель, которая идеально предсказывает целевые значения, и чем дальше мы от центра, тем хуже наши прогнозы. Если мы повторяем наш процесс построения модели с небольшими изменениями здесь и там каждый раз, мы получаем несколько попаданий в нашу цель, каждое из которых представляет производительность отдельной модели.

Чтобы узнать, как интерпретировать наши результаты, давайте рассмотрим различные случаи, которые мы можем наблюдать:

  1. Низкое смещение и низкая дисперсия
  • Идеальная ситуация для нашей модели машинного обучения
  • Погрешность прогноза минимальна.
  • Прогнозы не сильно меняются, когда мы выбираем другой обучающий набор.

2. Высокое смещение и высокая дисперсия

  • Худшая ситуация для нашей модели машинного обучения
  • Ошибка предсказания чрезвычайно высока
  • Прогнозы сильно колеблются, когда мы используем другой обучающий набор.

3. Высокое смещение и низкая дисперсия

  • Часто называется недостаточным соответствием, что означает, что наша модель не может уловить основные закономерности, присутствующие в наших данных.
  • Обычно возникает из-за наличия небольшого количества данных

4. Низкое смещение и высокая дисперсия

  • Также известен как переоснащение, что означает, что наша модель находит базовые шаблоны, присутствующие в наших данных, но также интерпретирует шум как полезную информацию.
  • Это происходит, когда мы обучаем нашу модель данным, которые не были очищены должным образом.

Резюме

По сути, компромисс смещения и дисперсии направлен на избежание как недостаточного, так и переобучения. По мере увеличения сложности нашей модели смещение уменьшается, а также увеличивается дисперсия. Другими словами, если мы продолжаем добавлять больше функций в нашу модель, наша основная задача переходит от уменьшения смещения к уменьшению дисперсии нашей модели.

Как упоминалось ранее, ошибка обобщения нашей модели состоит из трех различных ошибок и математически может быть изображена следующим образом:

Пунктирная линия на кривой сложности ошибки, показанной выше, обозначает оптимальную сложность модели и считается золотым пятном для нашей модели машинного обучения. Можно сказать, что золотая середина была найдена, когда увеличение смещения равно уменьшению дисперсии нашей модели. Математически получаем:

Если сложность нашей модели выходит за пределы оптимального уровня, мы переоснащаем нашу модель, а если мы не достигаем оптимального уровня, то мы не соответствуем нашей модели.

Подведение итогов…

По сути, мы можем определить взаимосвязь между смещением и дисперсией следующим образом:

  • Увеличение смещения уменьшит дисперсию; а также
  • Увеличение дисперсии уменьшит смещение

Хотя не существует окончательного метода для получения так называемой зоны наилучшего восприятия, мы можем сделать все возможное, чтобы ее найти, либо используя соответствующие показатели для анализа производительности нашей модели, либо выбирая правильные алгоритмы (и их правильную конфигурацию) для наших целей. Таким образом, мы можем сделать вывод, что компромисс смещения и дисперсии является важным соображением, которое мы можем использовать в качестве отправной точки для определения прогнозной эффективности наших моделей машинного обучения.

Ресурсы:

  1. Мягкое введение в компромисс между отклонениями и отклонениями в машинном обучении
  2. Понимание компромисса смещения и дисперсии
  3. Компромисс отклонения и отклонения - Бхавеш Бхатт

Получите доступ к экспертному обзору - Подпишитесь на DDI Intel