Решение проблемы дисбаланса классов является распространенной проблемой в задачах классификации, когда один класс (класс меньшинства) имеет значительно меньше экземпляров, чем другой класс (класс большинства). Классовый дисбаланс может привести к предвзятым моделям, которые плохо работают с классом меньшинства. Вот несколько стратегий устранения классового дисбаланса при построении модели классификации:

1. Методы повторной выборки:

- Передискретизация: Увеличьте количество экземпляров в классе меньшинства путем случайного дублирования существующих экземпляров или создания синтетических примеров. Популярные методы включают случайную передискретизацию и метод синтетической передискретизации меньшинства (SMOTE).

- Недостаточная выборка: Уменьшите количество экземпляров в классе большинства, случайно удалив некоторые из них. Однако это может привести к потере информации. Следует позаботиться о сохранении репрезентативной подгруппы класса большинства.

- Комбинация (SMOTEENN, SMOTETomek): Объедините избыточную выборку класса меньшинства с недостаточной выборкой класса большинства, чтобы получить сбалансированный набор данных.

2. Выбор алгоритма:

— Некоторые алгоритмы менее чувствительны к дисбалансу классов, чем другие. Например, древовидные алгоритмы, такие как случайные леса и повышение градиента, как правило, хорошо справляются с несбалансированными данными.

-Алгоритмы с весами классов. Многие библиотеки машинного обучения позволяют присваивать более высокие веса классу меньшинства, заставляя алгоритм уделять ему больше внимания во время обучения.

3. Обнаружение аномалий: относитесь к классу меньшинства как к проблеме обнаружения аномалий. Такие алгоритмы, как SVM одного класса или изолирующие леса, предназначены для выявления редких событий.

4. Обучение с учетом затрат: скорректируйте затраты на неправильную классификацию, чтобы более строго наказывать за ошибки в классе меньшинства. Некоторые алгоритмы позволяют указывать собственные матрицы затрат.

5. Ансамблевые методы:

- Используйте ансамблевые методы, такие как пакетирование и повышение, с базовыми моделями, предназначенными для обработки несбалансированных данных.

- Сбалансированное пакетирование и EasyEnsemble — это специальные ансамблевые методы, предназначенные для несбалансированных наборов данных.

6. Показатели оценки:

- Выберите подходящие показатели оценки, ориентированные на класс меньшинства, такие как точность, отзыв, показатель F1 или площадь под кривой точности-повторения (AUC-PR), а не точность.

- Стратифицированная выборка для перекрестной проверки: убедитесь, что каждый этап перекрестной проверки сохраняет распределение классов, присутствующее в исходном наборе данных.

7. Предварительная обработка на уровне данных:

Разработка функций. Тщательно создавайте функции, которые будут информативными и соответствующими проблеме.

- Обнаружение аномалий.Определите и, возможно, удалите выбросы, которые могут способствовать дисбалансу классов.

8. Гибридные подходы. Объедините несколько стратегий, таких как повторная выборка с выбором алгоритма и экономичное обучение.

9. Соберите больше данных: Если возможно, получите больше данных о классе меньшинства за счет дополнительных усилий по сбору данных.

Важно отметить, что выбор стратегии должен основываться на конкретной проблеме, наборе данных и алгоритме, который вы планируете использовать. Экспериментирование и проверка имеют решающее значение для определения того, какая комбинация методов лучше всего подходит для вашего конкретного сценария. Кроме того, рассмотрите последствия вашего выбора для бизнеса или предметной области, поскольку некоторые методы могут повлиять на интерпретацию и полезность прогнозов модели.

Посетите здесь: https://nareshit.com/data-science-online-training/

свяжитесь с нами: [email protected]|+91–8179191999