В проекте по науке о данных после создания подходящей модели и ее реализации мы часто сталкиваемся с определенными проблемами при оценке успешности модели. Двумя такими проблемами являются недооснащение и переобучение.
Цель модели — выявить взаимосвязь и значение между зависимыми и независимыми переменными. В этом случае мы ожидаем, что модель изучит структуру данных, а не запомнит ее.
📌 Недостаточное оснащение. Модель недостаточно хорошо усваивает данные. Он имеет высокую систематическую ошибку и низкую дисперсию, а его способность к обобщению слаба.
📌 Переоснащение, когда модель запоминает данные. Он имеет высокую дисперсию и низкую предвзятость. Его точность снижается при столкновении с различными данными в тестовом наборе, поскольку функция прогнозирования точно отражает фактические значения.
Идеальная модель имеет низкую систематическую ошибку и низкую дисперсию. Она представляет структуру, закономерности или взаимосвязи в наборе данных без запоминания или искажения данных.
Как обнаружить переоснащение?
Мы можем выявить переобучение, совместно оценив обучающую и тестовую выборки с точки зрения сложности модели и ошибки прогнозирования. Проанализируйте изменение ошибки в обоих наборах.
Когда две ошибки начинают расходиться (где начинается вилка), начинается переобучение.
Как предотвратить переоснащение?
Мы уделяем особое внимание совершенствованию функций модели, чтобы повысить ее точность и сделать более подробные прогнозы. Этот процесс различается для разных методов, таких как линейные модели, древовидные методы и нейронные сети. Однако эта ситуация означает увеличение сложности модели, что увеличивает вероятность возникновения проблемы переобучения. Основная философия предотвращения переобучения заключается в уменьшении сложности модели (длительности обучения, продолжительности итерации и т. д.). Увеличение сложности модели уменьшит количество ошибок до определенного момента, но после достижения оптимальной производительности модели в обучающем наборе произойдет запоминание. Следовательно, когда анализ проводится с использованием тестового набора, будет увеличиваться количество ошибок, что приведет к переобучению.
Также крайне важно анализировать корреляции, пропущенные значения и выбросы, чтобы предотвратить переобучение. Например, существование независимых переменных в наборе данных с высокой корреляцией может привести как к систематической ошибке, так и к переобучению, поскольку они несут одну и ту же информацию. Следовательно, может возникнуть необходимость пересмотреть переменные, которые демонстрируют высокую корреляцию в наборе данных.
Для решения проблемы переобучения можно использовать различные методы. Некоторые из этих методов включают в себя:
- Регуляризация: метод, который помогает предотвратить переобучение за счет уменьшения сложности модели. Доступны различные методы регуляризации, такие как регуляризация L1 (Лассо) и L2 (Ридж). Регуляризация L1 приближает веса признаков в модели к нулю, уменьшая влияние незначительных признаков и улучшая возможности обобщения модели.
- Бэггинг (начальное агрегирование): этот метод увеличивает возможности обобщения модели за счет использования нескольких базовых обучающихся для обучения на вновь созданных выборках данных посредством случайной выборки, а затем агрегирования результатов. Это особенно эффективно для моделей с высокой дисперсией, таких как деревья решений. Случайный лес — один из самых известных примеров такого подхода.
- Дополнение данных. За счет расширения набора данных этот метод предлагает модели больше возможностей для обучения. Такие методы, как преобразование и вращение выборок, направлены на то, чтобы модель могла лучше обобщать новые данные. Этот метод часто используется в таких областях, как глубокое обучение и распознавание изображений.
- Ранняя остановка. Этот метод предотвращает переобучение, останавливая процесс обучения в тот момент, когда ошибка теста начинает увеличиваться. Это предотвращает неэффективность модели при обобщении невидимых данных.
- Перекрестная проверка. Этот метод делит набор данных на несколько частей и оценивает производительность модели, поочередно используя каждый сегмент в качестве тестового набора. Оценивая производительность модели на различных подмножествах данных, риск переобучения сводится к минимуму. K-кратная и стратифицированная k-кратная перекрестная проверка являются наиболее часто используемыми методами.
Различные модели машинного обучения имеют разные переменные, которые могут привести к переобучению. Давайте предоставим методы, специфичные для некоторых моделей:
- Линейные методы. Добавление экспоненциальных членов в модель, т. е. уточнение модели, означает, что модель способна делать более подробные прогнозы. Другими словами, это называется усложнением модели.
- Древовидные методы. Для усложнения модели используется техника ветвления. В методах дерева, основанных на оптимизации (например, LightGBM), количество итераций используется в качестве параметра сложности модели. Например, увеличение количества итераций до 100, 500 или 1000 может уменьшить ошибку во время обучения, но увеличить ее во время тестирования.
- Искусственные нейронные сети. Когда количество слоев, количество ячеек, количество итераций увеличивается или вносятся корректировки или параметры в такие параметры, как скорость обучения, ошибка в настройке обучения уменьшается до определенной точки. но тогда ошибка в тестовом наборе увеличится.
Чтобы проиллюстрировать проблему переобучения на примере из реальной жизни:
В приложениях по распознаванию лиц крайне важно предотвратить переобучение. Например, система камер видеонаблюдения может автоматически регулировать вход определенных лиц в здание с помощью распознавания лиц. Изображения лиц в обучающем наборе ограничены различными условиями освещения, углами и выражениями лица. В этом случае серьезной проблемой становится то, что модель запоминает обучающий набор и плохо обобщает новые, невидимые изображения лица.
Для решения этой проблемы можно использовать методы увеличения данных и перекрестной проверки. Благодаря дополнению данных изображения лиц в наборе обучающих данных обогащаются за счет их вращения, изменения размера и просмотра в различных условиях освещения. Таким образом, модель обучается лучше обобщать в различных условиях. Благодаря перекрестной проверке производительность модели постоянно контролируется, что снижает риск переобучения.
В заключение отметим, что для решения проблемы переобучения можно использовать различные приемы и методы. Идеальное решение может варьироваться в зависимости от проекта и используемой модели машинного обучения. Внедрение этих методов для предотвращения переобучения повышает производительность модели, позволяя ей делать более надежные и точные прогнозы в реальной жизни.
Для обучения вопросам переобучения и машинного обучения вы можете ознакомиться с контентом, предлагаемым Miuul. Благодаря команде экспертов и поддержке Miuul вы сможете уверенно продвигаться по карьерной лестнице в области науки о данных.
Источники:
На пути к науке о данных, переобучение
Википедия, Переоснащение
Вери Билими Окулу, Aşırı öğrenme (переоснащение)
Миуул, Makine ögrenmesi
GeeksforGeeks, ML | Недооснащение и переоснащение