В проекте по науке о данных после создания подходящей модели и ее реализации мы часто сталкиваемся с определенными проблемами при оценке успешности модели. Двумя такими проблемами являются недооснащение и переобучение.

Цель модели — выявить взаимосвязь и значение между зависимыми и независимыми переменными. В этом случае мы ожидаем, что модель изучит структуру данных, а не запомнит ее.

📌 Недостаточное оснащение. Модель недостаточно хорошо усваивает данные. Он имеет высокую систематическую ошибку и низкую дисперсию, а его способность к обобщению слаба.

📌 Переоснащение, когда модель запоминает данные. Он имеет высокую дисперсию и низкую предвзятость. Его точность снижается при столкновении с различными данными в тестовом наборе, поскольку функция прогнозирования точно отражает фактические значения.

Идеальная модель имеет низкую систематическую ошибку и низкую дисперсию. Она представляет структуру, закономерности или взаимосвязи в наборе данных без запоминания или искажения данных.

Как обнаружить переоснащение?

Мы можем выявить переобучение, совместно оценив обучающую и тестовую выборки с точки зрения сложности модели и ошибки прогнозирования. Проанализируйте изменение ошибки в обоих наборах.

Когда две ошибки начинают расходиться (где начинается вилка), начинается переобучение.

Как предотвратить переоснащение?

Мы уделяем особое внимание совершенствованию функций модели, чтобы повысить ее точность и сделать более подробные прогнозы. Этот процесс различается для разных методов, таких как линейные модели, древовидные методы и нейронные сети. Однако эта ситуация означает увеличение сложности модели, что увеличивает вероятность возникновения проблемы переобучения. Основная философия предотвращения переобучения заключается в уменьшении сложности модели (длительности обучения, продолжительности итерации и т. д.). Увеличение сложности модели уменьшит количество ошибок до определенного момента, но после достижения оптимальной производительности модели в обучающем наборе произойдет запоминание. Следовательно, когда анализ проводится с использованием тестового набора, будет увеличиваться количество ошибок, что приведет к переобучению.

Также крайне важно анализировать корреляции, пропущенные значения и выбросы, чтобы предотвратить переобучение. Например, существование независимых переменных в наборе данных с высокой корреляцией может привести как к систематической ошибке, так и к переобучению, поскольку они несут одну и ту же информацию. Следовательно, может возникнуть необходимость пересмотреть переменные, которые демонстрируют высокую корреляцию в наборе данных.

Для решения проблемы переобучения можно использовать различные методы. Некоторые из этих методов включают в себя:

  • Регуляризация: метод, который помогает предотвратить переобучение за счет уменьшения сложности модели. Доступны различные методы регуляризации, такие как регуляризация L1 (Лассо) и L2 (Ридж). Регуляризация L1 приближает веса признаков в модели к нулю, уменьшая влияние незначительных признаков и улучшая возможности обобщения модели.
  • Бэггинг (начальное агрегирование): этот метод увеличивает возможности обобщения модели за счет использования нескольких базовых обучающихся для обучения на вновь созданных выборках данных посредством случайной выборки, а затем агрегирования результатов. Это особенно эффективно для моделей с высокой дисперсией, таких как деревья решений. Случайный лес — один из самых известных примеров такого подхода.
  • Дополнение данных. За счет расширения набора данных этот метод предлагает модели больше возможностей для обучения. Такие методы, как преобразование и вращение выборок, направлены на то, чтобы модель могла лучше обобщать новые данные. Этот метод часто используется в таких областях, как глубокое обучение и распознавание изображений.
  • Ранняя остановка. Этот метод предотвращает переобучение, останавливая процесс обучения в тот момент, когда ошибка теста начинает увеличиваться. Это предотвращает неэффективность модели при обобщении невидимых данных.
  • Перекрестная проверка. Этот метод делит набор данных на несколько частей и оценивает производительность модели, поочередно используя каждый сегмент в качестве тестового набора. Оценивая производительность модели на различных подмножествах данных, риск переобучения сводится к минимуму. K-кратная и стратифицированная k-кратная перекрестная проверка являются наиболее часто используемыми методами.

Различные модели машинного обучения имеют разные переменные, которые могут привести к переобучению. Давайте предоставим методы, специфичные для некоторых моделей:

  • Линейные методы. Добавление экспоненциальных членов в модель, т. е. уточнение модели, означает, что модель способна делать более подробные прогнозы. Другими словами, это называется усложнением модели.
  • Древовидные методы. Для усложнения модели используется техника ветвления. В методах дерева, основанных на оптимизации (например, LightGBM), количество итераций используется в качестве параметра сложности модели. Например, увеличение количества итераций до 100, 500 или 1000 может уменьшить ошибку во время обучения, но увеличить ее во время тестирования.
  • Искусственные нейронные сети. Когда количество слоев, количество ячеек, количество итераций увеличивается или вносятся корректировки или параметры в такие параметры, как скорость обучения, ошибка в настройке обучения уменьшается до определенной точки. но тогда ошибка в тестовом наборе увеличится.

Чтобы проиллюстрировать проблему переобучения на примере из реальной жизни:

В приложениях по распознаванию лиц крайне важно предотвратить переобучение. Например, система камер видеонаблюдения может автоматически регулировать вход определенных лиц в здание с помощью распознавания лиц. Изображения лиц в обучающем наборе ограничены различными условиями освещения, углами и выражениями лица. В этом случае серьезной проблемой становится то, что модель запоминает обучающий набор и плохо обобщает новые, невидимые изображения лица.

Для решения этой проблемы можно использовать методы увеличения данных и перекрестной проверки. Благодаря дополнению данных изображения лиц в наборе обучающих данных обогащаются за счет их вращения, изменения размера и просмотра в различных условиях освещения. Таким образом, модель обучается лучше обобщать в различных условиях. Благодаря перекрестной проверке производительность модели постоянно контролируется, что снижает риск переобучения.

В заключение отметим, что для решения проблемы переобучения можно использовать различные приемы и методы. Идеальное решение может варьироваться в зависимости от проекта и используемой модели машинного обучения. Внедрение этих методов для предотвращения переобучения повышает производительность модели, позволяя ей делать более надежные и точные прогнозы в реальной жизни.

Для обучения вопросам переобучения и машинного обучения вы можете ознакомиться с контентом, предлагаемым Miuul. Благодаря команде экспертов и поддержке Miuul вы сможете уверенно продвигаться по карьерной лестнице в области науки о данных.

Источники:

На пути к науке о данных, переобучение

Википедия, Переоснащение

Вери Билими Окулу, Aşırı öğrenme (переоснащение)

Миуул, Makine ögrenmesi

GeeksforGeeks, ML | Недооснащение и переоснащение