Переобучение — это проблема, которая возникает, когда модель используется для прогнозирования. Сначала я опишу подгонку модели, объясню, как подгонка связана с прогнозированием модели, затем приведу пример и закончу несколькими атрибутами проблемы переобучения.

Допустим, у нас есть набор данных, на котором мы создаем модель, оценивающую одну из переменных вместе с другими. Затем у нас есть модель, созданная на нашем «наборе данных для генерации», которая дает ожидаемые значения нашей «оценочной переменной». Чем точнее наша модель оценивает оценочную переменную (или, говоря иначе, дает точные ожидаемые значения), тем лучше модель соответствует набору данных генерации. Модель может быть создана миллиардом различных способов с использованием методов статистики, машинного обучения или теоретических знаний о явлениях, зафиксированных в переменных. Некоторые методы могут дать нам более подходящие модели для нашего набора данных генерации, чем другие. Методы машинного обучения дадут модели, которые лучше соответствуют набору данных генерации, чем модели, полученные на основе теории, но, как мы увидим ниже, методы машинного обучения также оставят нас с большим переобучением, чем теория.

Независимо от того, «как» мы создали модель, мы, вероятно, сделали это, чтобы предсказать оцениваемую переменную с учетом других данных или комбинаций значений переменных, которые мы можем увидеть в будущем. Другими словами, мы хотим использовать нашу модель для прогнозирования оценочной переменной вне данных генерации. Мы найдем модель ценной, если она сможет точно предсказать оцениваемую переменную в новых ситуациях, потому что она дает нам больше информации о том, чего нам следует ожидать. Это в основном то, как все модели зарабатывают на жизнь 😊

Например, модель, созданная на основе данных, связанных с погодой в прошлом месяце, которая предсказывает температуру в 17:00, полезна, когда мы используем ее для получения информативного ожидания температуры в 17:00 завтрашнего дня или следующего дня. Но поскольку ситуации, в которых мы хотим прогнозировать, и те, на которых основаны наши данные о генерации, различаются, мы обнаружим, что наша модель работает по-разному в этих двух случаях. В частности, модель будет намного лучше оценивать точные значения оценочной переменной (или, мы бы сказали, лучше подходит) в наборе данных генерации, чем в любом другом внешнем наборе данных. Степень, в которой модель лучше в наборе данных генерации, чем в любом внешнем наборе данных, может варьироваться, и когда модель намного лучше в наборе данных генерации, мы говорим, что у нас есть переоснащение модели или проблема переобучения.

Мы заботимся о проблеме переобучения, потому что иметь точные прогнозы на внешних данных очень ценно, а переобучение означает, что ваши прогнозы не могут быть такими уж точными. Мы можем попытаться улучшить соответствие модели при оценке наших данных о генерации, но это только ухудшит соответствие внешним данным (если только внешние данные не будут полностью отражены в данных о генерации). У нас всегда будет меньшая предсказательная сила и худшая совместимость с новыми данными, чем с набором данных для генерации. Хотя это само по себе проблема, мы также не знаем, насколько меньше предсказательная сила (или насколько хуже соответствие) новых данных. Если мы не знаем, насколько внешние данные будут отличаться от данных генерации, мы не можем сказать, насколько мы подходим к нашей модели.

Первоначально опубликовано на ablifeing.blogspot.com.