Давайте разберемся с некоторыми основными терминами для контролируемого машинного обучения.
Что такое данные обучения/тестирования?
Мы разделяем данные на обучающие и тестовые данные для машинного обучения с учителем, чтобы обучить модель и оценить ее производительность.
данные для обучения используются для обучения модели машинного обучения, а данные для тестирования используются для оценки обученной модели машинного обучения.
Обычно мы используем 80% данных для обучения модели, а оставшиеся 20% — для ее оценки.
Что такое недообученность/переобучение?
Когда ошибка данных обучения и тестирования высока, модель недообучаема.
Когда ошибка в обучающих данных невелика, а ошибка в тестовых данных очень велика, модель переоснащается.
Оптимальным соответствием модели было бы получение приемлемой ошибки как в обучающих, так и в тестовых данных.
Смещение оценщика
Разница между средней точностью подгонки оценщика (например, средним) и целевой функцией называется смещением оценщика.
Здесь g(x) — аппроксимация оценщика, а f(x) — целевая аппроксимация.
Дисперсия оценщика
Дисперсия — это ожидаемая (как и средняя) квадратичная разница между любой отдельной оценкой g(x), зависящей от набора данных, и средним значением g(x), оцененным по всем наборам данных, E[g(x)].
Смещение-дисперсия в машинном обучении не совсем то же самое, что и в статистике.
Общая ошибка
Общая ошибка представляет собой сумму ошибки дисперсии, квадрата ошибки смещения и неустранимой ошибки, которая в основном представляет собой шум.
Ошибка смещения и ошибка дисперсии обратно пропорциональны друг другу. Лучшая модель та, в которой суммарная ошибка минимальна.
Если мы увеличим сложность модели (увеличим количество признаков), ошибка смещения уменьшится, но ошибка дисперсии в тестовых данных будет очень высокой.
Если мы уменьшим сложность модели (уменьшим количество признаков), ошибка смещения увеличится, но ошибка дисперсии в тестовых данных будет низкой.
Лучшее место — это место, где ошибки смещения и дисперсии минимальны, что делает общую ошибку минимальной.
Графическое представление смещения и дисперсии.
С низкой/высокой дисперсией и низкой/высокой погрешностью смещения у нас может быть четыре возможных комбинации, как показано ниже:
На рисунке красный центр — целевой выход.
Если обучающие данные полны выбросов и нестандартных значений, то прогнозы модели очень неточны.
Оптимальная оценка будет иметь как низкую дисперсию, так и низкую ошибку смещения.
Прочитайте подробную статью Скотта Фортманна-Роу Понимание компромисса смещения и дисперсии: http://scott.fortmann-roe.com/docs/BiasVariance.html.