Начнем с обсуждения терминологии, используемой в изображении.

Смещение – представляет ошибку в обучающих данных.

Дисперсия – представляет ошибку в тестовых данных.

Over-Fiting- Алгоритм показывает хорошее соответствие данным обучения, но не данным тестирования, т. е. низкое смещение и высокая дисперсия.

Недостаточная подгонка.Алгоритм не показывает хорошего соответствия ни тренировочным данным, ни тестовым данным, т. е. высокое смещение и высокая дисперсия.

Теперь мы знаем, что такое чрезмерная и недостаточная адаптация. Давайте обсудим, что мы должны делать, когда у нас есть эта проблема.

Подгонка

  1. Попробуйте регуляризованную модель

Регулярная регрессия — это тип регрессии, в котором оценки коэффициентов ограничены нулем. Величина (размер) коэффициентов, а также величина члена ошибки штрафуются.

Регрессия Лассо: - Регрессия Лассо выполняет регуляризацию L1, которая добавляет штраф, равный абсолютному значению величины коэффициентов. Этот тип регуляризации может привести к другим моделям с меньшим количеством коэффициентов; Некоторые коэффициенты могут быть нулевыми и исключены из модели.

Регрессия гребня. Регрессия гребня относится к классу инструментов регрессии, использующих регуляризацию L2. Другой тип регуляризации, регуляризация L1, ограничивает размер коэффициентов, добавляя штраф L1, равный абсолютному значению величины коэффициентов. Иногда это приводит к полному удалению некоторых коэффициентов. Регуляризация L2 добавляет штраф L2, который равен квадрату величины коэффициентов. Все коэффициенты уменьшаются на один и тот же коэффициент (поэтому ни один из них не исключается).

2. Попробуйте настроить гиперпараметры.

Настройка гиперпараметров — это проблема выбора набора оптимальных гиперпараметров для алгоритма обучения. Гиперпараметр — это параметр, значение которого используется для управления процессом обучения.

3. Обрезка основана на дереве.

Обрезка — это один из методов, используемых для решения проблемы переобучения. Обрезка, в буквальном смысле, — это практика, которая включает в себя выборочное удаление определенных частей дерева (или растения), таких как ветви, побеги или корни, чтобы способствовать формированию дерева и способствовать здоровому росту.

4. Использованиеперекрестной проверки.

5. Попробуйте более простые модели.

6. Попробуйте получить больше обучающих данных.

7. Использование ранней остановки, если позволяют алгоритмы.

Подгонка

  1. Увеличьте сложность модели.
  2. Уменьшить регуляризацию.
  3. Увеличение числа итераций может помочь.

Несбалансированный класс

Несбалансированные данные — еще одна большая проблема. Он показывает высокую точность, даже если модель работает плохо. Вот несколько способов обработки несбалансированного набора данных.

Я подробно объяснил о точности, точности и отзыве. Пожалуйста, ознакомьтесь с моей статьей об этом. "ССЫЛКА НА САЙТ"

  1. Перевыборка. Это относится к увеличению количества строк для класса, которые имеют небольшую частоту. На самом деле требуется получить больше данных для меньшего класса, что может быть сложно. (Совет: может помочь дублирование строк)
  2. Недостаточная выборка: это относится к уменьшению количества строк для большего класса, чтобы сделать обучение более сбалансированным.
  3. Генерация данных с использованием SMOTE:метод синтетической избыточной выборки меньшинств работает над созданием новых точек данных для меньшего класса.
  4. Вес класса.Некоторые алгоритмы позволяют назначать классу разные веса для улучшения обучения.

Заключительные мысли

Важно справляться с чрезмерным, недостаточным и несбалансированным набором данных. Это может вызвать большие проблемы в производстве, несмотря на хорошие результаты в обучении. Нам нужно понять, какой тип данных у нас есть и какой тип алгоритма мы используем, чтобы использовать правильную технику.