Компромисс смещения и дисперсии

Давайте разберемся с некоторыми основными терминами для контролируемого машинного обучения.

Что такое данные обучения/тестирования?

Мы разделяем данные на обучающие и тестовые данные для машинного обучения с учителем, чтобы обучить модель и оценить ее производительность.

данные для обучения используются для обучения модели машинного обучения, а данные для тестирования используются для оценки обученной модели машинного обучения.

Обычно мы используем 80% данных для обучения модели, а оставшиеся 20% — для ее оценки.

Что такое недообученность/переобучение?

Когда ошибка данных обучения и тестирования высока, модель недообучаема.

Когда ошибка в обучающих данных невелика, а ошибка в тестовых данных очень велика, модель переоснащается.

Оптимальным соответствием модели было бы получение приемлемой ошибки как в обучающих, так и в тестовых данных.

Смещение оценщика

Разница между средней точностью подгонки оценщика (например, средним) и целевой функцией называется смещением оценщика.

Здесь g(x) — аппроксимация оценщика, а f(x) — целевая аппроксимация.

Дисперсия оценщика

Дисперсия — это ожидаемая (как и средняя) квадратичная разница между любой отдельной оценкой g(x), зависящей от набора данных, и средним значением g(x), оцененным по всем наборам данных, E[g(x)].

Смещение-дисперсия в машинном обучении не совсем то же самое, что и в статистике.

Общая ошибка

Общая ошибка представляет собой сумму ошибки дисперсии, квадрата ошибки смещения и неустранимой ошибки, которая в основном представляет собой шум.

Ошибка смещения и ошибка дисперсии обратно пропорциональны друг другу. Лучшая модель та, в которой суммарная ошибка минимальна.

Если мы увеличим сложность модели (увеличим количество признаков), ошибка смещения уменьшится, но ошибка дисперсии в тестовых данных будет очень высокой.

Если мы уменьшим сложность модели (уменьшим количество признаков), ошибка смещения увеличится, но ошибка дисперсии в тестовых данных будет низкой.

Лучшее место — это место, где ошибки смещения и дисперсии минимальны, что делает общую ошибку минимальной.

Графическое представление смещения и дисперсии.

С низкой/высокой дисперсией и низкой/высокой погрешностью смещения у нас может быть четыре возможных комбинации, как показано ниже:

На рисунке красный центр — целевой выход.

Если обучающие данные полны выбросов и нестандартных значений, то прогнозы модели очень неточны.

Оптимальная оценка будет иметь как низкую дисперсию, так и низкую ошибку смещения.

Прочитайте подробную статью Скотта Фортманна-Роу Понимание компромисса смещения и дисперсии: http://scott.fortmann-roe.com/docs/BiasVariance.html.