Задумывались ли вы когда-нибудь, когда вы обучаете модель логистической регрессии на наборе данных о мошеннических транзакциях с кредитными картами, она дает вам такие результаты, как:

Точность обучения -› 99,5% 😎
Точность тестирования -› 68% 😑

Тогда вы, вероятно, столкнулись с очень серьезной проблемой, называемой Дисбаланс классов.
Официально определяется как -› набор данных, в котором один из двух классов имеет больше выборок, чем другой класс.

Теперь давайте на самом деле поймем, что происходит-›

Давайте назовем Класс 0 -> Класс A и Класс 1 -> Класс B.
Как видите, в классе A гораздо больше выборок, чем в классе B, но Вы можете подумать, что, черт возьми, это создает проблему?

Проблема:-
Модель становится предвзятой -› Возьмем пример. Предположим, у вас есть 100 транзакций по кредитным картам, но только 1 из них является мошенническим!
Тогда ваша модель будет смещена в сторону этих образцов большинства классов, что является причиной того, что ваша модель не может правильно обобщать (одинаково хорошо работать как при обучении, так и при тестировании)!

Решение:-
Хотя существует множество решений этой проблемы, некоторые из наиболее известных из них-›

1) Изменение метрики. Не используйте Точность, если у вас несбалансированный набор данных, так как он не может отразить обобщение!
Вместо этого используйте оценку F-1, точность или полноту, они лучше обобщают.

2) Использование методов (случайной) выборки: таких как недостаточная выборка (количество выборок в классе большинства равно количеству выборок в классе меньшинства) или передискретизация (количество выборок в классе меньшинства равно количеству выборок в классе меньшинства). класс большинства)!

На изображении выше вы можете увидеть, как они оба сделаны.

3) Использование выборки, но на этот раз давайте назовем их -› Tomek Links (что-то вроде недостаточной выборки) и SMOTE (что-то вроде избыточной выборки).

Большое спасибо, если вы все еще со мной🙌❤️, А люди, знающие хинди, могут посмотреть эту статью в виде видео здесь -› https://youtu.be/0Qz2d7BxYFI