Разгадка тайн недостаточного и переоснащения в проектах по науке о данных

В проекте по науке о данных после создания подходящей модели и ее реализации мы часто сталкиваемся с определенными проблемами при оценке успешности модели. Двумя такими проблемами являются недооснащение и переобучение.

Цель модели — выявить взаимосвязь и значение между зависимыми и независимыми переменными. В этом случае мы ожидаем, что модель изучит структуру данных, а не запомнит ее.

📌 Недостаточное оснащение. Модель недостаточно хорошо усваивает данные. Он имеет высокую систематическую ошибку и низкую дисперсию, а его способность к обобщению слаба.

📌 Переоснащение, когда модель запоминает данные. Он имеет высокую дисперсию и низкую предвзятость. Его точность снижается при столкновении с различными данными в тестовом наборе, поскольку функция прогнозирования точно отражает фактические значения.

Идеальная модель имеет низкую систематическую ошибку и низкую дисперсию. Она представляет структуру, закономерности или взаимосвязи в наборе данных без запоминания или искажения данных.

Как обнаружить переоснащение?

Мы можем выявить переобучение, совместно оценив обучающую и тестовую выборки с точки зрения сложности модели и ошибки прогнозирования. Проанализируйте изменение ошибки в обоих наборах.

Когда две ошибки начинают расходиться (где начинается вилка), начинается переобучение.

Как предотвратить переоснащение?

Мы уделяем особое внимание совершенствованию функций модели, чтобы повысить ее точность и сделать более подробные прогнозы. Этот процесс различается для разных методов, таких как линейные модели, древовидные методы и нейронные сети. Однако эта ситуация означает увеличение сложности модели, что увеличивает вероятность возникновения проблемы переобучения. Основная философия предотвращения переобучения заключается в уменьшении сложности модели (длительности обучения, продолжительности итерации и т. д.). Увеличение сложности модели уменьшит количество ошибок до определенного момента, но после достижения оптимальной производительности модели в обучающем наборе произойдет запоминание. Следовательно, когда анализ проводится с использованием тестового набора, будет увеличиваться количество ошибок, что приведет к переобучению.

Также крайне важно анализировать корреляции, пропущенные значения и выбросы, чтобы предотвратить переобучение. Например, существование независимых переменных в наборе данных с высокой корреляцией может привести как к систематической ошибке, так и к переобучению, поскольку они несут одну и ту же информацию. Следовательно, может возникнуть необходимость пересмотреть переменные, которые демонстрируют высокую корреляцию в наборе данных.

Для решения проблемы переобучения можно использовать различные методы. Некоторые из этих методов включают в себя:

Регуляризация: метод, который помогает предотвратить переобучение за счет уменьшения сложности модели. Доступны различные методы регуляризации, такие как регуляризация L1 (Лассо) и L2 (Ридж). Регуляризация L1 приближает веса признаков в модели к нулю, уменьшая влияние незначительных признаков и улучшая возможности обобщения модели.
Бэггинг (начальное агрегирование): этот метод увеличивает возможности обобщения модели за счет использования нескольких базовых обучающихся для обучения на вновь созданных выборках данных посредством случайной выборки, а затем агрегирования результатов. Это особенно эффективно для моделей с высокой дисперсией, таких как деревья решений. Случайный лес — один из самых известных примеров такого подхода.
Дополнение данных. За счет расширения набора данных этот метод предлагает модели больше возможностей для обучения. Такие методы, как преобразование и вращение выборок, направлены на то, чтобы модель могла лучше обобщать новые данные. Этот метод часто используется в таких областях, как глубокое обучение и распознавание изображений.
Ранняя остановка. Этот метод предотвращает переобучение, останавливая процесс обучения в тот момент, когда ошибка теста начинает увеличиваться. Это предотвращает неэффективность модели при обобщении невидимых данных.
Перекрестная проверка. Этот метод делит набор данных на несколько частей и оценивает производительность модели, поочередно используя каждый сегмент в качестве тестового набора. Оценивая производительность модели на различных подмножествах данных, риск переобучения сводится к минимуму. K-кратная и стратифицированная k-кратная перекрестная проверка являются наиболее часто используемыми методами.

Различные модели машинного обучения имеют разные переменные, которые могут привести к переобучению. Давайте предоставим методы, специфичные для некоторых моделей:

Линейные методы. Добавление экспоненциальных членов в модель, т. е. уточнение модели, означает, что модель способна делать более подробные прогнозы. Другими словами, это называется усложнением модели.
Древовидные методы. Для усложнения модели используется техника ветвления. В методах дерева, основанных на оптимизации (например, LightGBM), количество итераций используется в качестве параметра сложности модели. Например, увеличение количества итераций до 100, 500 или 1000 может уменьшить ошибку во время обучения, но увеличить ее во время тестирования.
Искусственные нейронные сети. Когда количество слоев, количество ячеек, количество итераций увеличивается или вносятся корректировки или параметры в такие параметры, как скорость обучения, ошибка в настройке обучения уменьшается до определенной точки. но тогда ошибка в тестовом наборе увеличится.

Чтобы проиллюстрировать проблему переобучения на примере из реальной жизни:

В приложениях по распознаванию лиц крайне важно предотвратить переобучение. Например, система камер видеонаблюдения может автоматически регулировать вход определенных лиц в здание с помощью распознавания лиц. Изображения лиц в обучающем наборе ограничены различными условиями освещения, углами и выражениями лица. В этом случае серьезной проблемой становится то, что модель запоминает обучающий набор и плохо обобщает новые, невидимые изображения лица.

Для решения этой проблемы можно использовать методы увеличения данных и перекрестной проверки. Благодаря дополнению данных изображения лиц в наборе обучающих данных обогащаются за счет их вращения, изменения размера и просмотра в различных условиях освещения. Таким образом, модель обучается лучше обобщать в различных условиях. Благодаря перекрестной проверке производительность модели постоянно контролируется, что снижает риск переобучения.

В заключение отметим, что для решения проблемы переобучения можно использовать различные приемы и методы. Идеальное решение может варьироваться в зависимости от проекта и используемой модели машинного обучения. Внедрение этих методов для предотвращения переобучения повышает производительность модели, позволяя ей делать более надежные и точные прогнозы в реальной жизни.

Для обучения вопросам переобучения и машинного обучения вы можете ознакомиться с контентом, предлагаемым Miuul. Благодаря команде экспертов и поддержке Miuul вы сможете уверенно продвигаться по карьерной лестнице в области науки о данных.

Источники:

На пути к науке о данных, переобучение

Википедия, Переоснащение

Вери Билими Окулу, Aşırı öğrenme (переоснащение)

Миуул, Makine ögrenmesi

GeeksforGeeks, ML | Недооснащение и переоснащение

Разгадка тайн недостаточного и переоснащения в проектах по науке о данных

Как обнаружить переоснащение?

Как предотвратить переоснащение?

Источники:

Вопросы по теме