Проблемы, возникающие при подгонке данных к модели

Переоснащение-

Вот причина, по которой вы не хотите, чтобы ваша модель машинного обучения получала 100% точность обучающих данных, то есть… переобучение!!!

Модель переобучается, когда она просто запоминает данные, т.е. кривая, которая соответствует всем тренировочным данным. Если переобученную модель протестировать на обучающих данных, модель выдаст 0 ошибок обучения. Таким образом, чтобы проверить способность модели к обобщению, модель должна быть протестирована на невидимых тестовых примерах.

Когда модель подходит к обучающему набору данных, она становится чрезвычайно хорошей при работе с обучающим набором данных, но потенциально не сможет работать с любым другим набором данных, который даже немного отличается.

Как работают деревья регрессии? | Data Driven Investor
Ранее мы говорили о деревьях решений и о том, как их можно использовать в задачах классификации. Теперь мы переключаем наше внимание…www.datadriveninvestor.com

Например, если ваша модель обучена обнаруживать яблоко, но она переподгоняется к обучающим данным красных яблок, то она не сможет обнаружить зеленое яблоко или черно-белое изображение красного яблока или немного не в форме. яблоко. Он навсегда сможет обнаруживать только красные яблоки, которые точно похожи на набор обучающих данных, который вы предоставили, любая небольшая разница отбросит его.

Можно сказать, что в модели переобучения не задействована интеллектуальная часть. Таким образом, при построении модели машинного обучения важно убедиться, что вы не подгоняете свою модель к вашим обучающим данным. Решением, позволяющим избежать переобучения, является использование линейного алгоритма, если у нас есть линейные данные, или использование таких параметров, как максимальная глубина, если мы используем деревья решений.

В отличие от этого, другая проблема, возникающая при попытке подогнать обучающие данные к модели, заключается в следующем:

Недооснащение-

Говорят, что статистическая модель или алгоритм машинного обучения не соответствуют требованиям, если они не могут уловить основную тенденцию данных. Недообучение разрушает точность нашей модели машинного обучения. Его появление просто означает, что наша модель или алгоритм недостаточно хорошо соответствуют данным. Обычно это происходит, когда у нас меньше данных для построения точной модели, а также когда мы пытаемся построить линейную модель с нелинейными данными. В таких случаях правила модели машинного обучения слишком просты и гибки, чтобы их можно было применять к таким минимальным данным, и поэтому модель, вероятно, будет делать много неверных прогнозов. Недообучения можно избежать, используя больше данных, а также уменьшая количество признаков путем их выбора.

Получить доступ к расширенному просмотру — Подписаться на DDI Intel

Проблемы, возникающие при подгонке данных к модели

Вопросы по теме