Сбалансированные данные и несбалансированные данные

несбалансированный набор данных — один из реальных сценариев, которые приходят к реализации модели машинного обучения. например, данные прогнозирования рака имеют много -ve по сравнению с +Ve и в интернет-индустрии, где много посетителей приходят на веб-сайт, но продукт покупается большим количеством людей.

что такое сбалансированный и несбалансированный набор данных?

сбалансированный набор данных, где (n1+n2=Dn) n1 и n2 примерно одинаковы. например, n1 = 580 и n2 = 420, тогда набор данных сбалансирован. Если n1 > > n2 или n2 > > n1, то Dn является несбалансированным набором данных.

каков эффект несбалансированного набора данных?

если данные сильно несбалансированы, то прогноз или результат не всегда, а смещен в сторону большинства.

Как вы можете видеть на рисунке, если Dn несбалансирован, то Dtest также несбалансирован, поэтому точность модели высока, но модель тупая.

методы работы с несбалансированным набором данных

Неполная выборка

как следует из названия, недостаточная выборка означает удаление данных класса большинства и преобразование их в класс меньшинства.

основная проблема с недостаточной выборкой заключается в удалении большого количества данных, или потеря данных означает, что мы теряем информацию. выбрасывать данные не лучшая идея.

передискретизация

Как следует из названия, избыточная выборка означает создание точек класса меньшинства для заполнения пробелов. один метод - точка повторения, где ранее существовала отрицательная точка. если есть одна +ve точка, создайте 9 точек с перекрытием.

Как показано на рисунке, где красный — это класс большинства, зеленый — класс меньшинства, а желтый — точка пересечения для заполнения разрыва между ними. Как видите, повторение не является эффективной техникой передискретизации, а является простой техникой. дополнительная поляризация - одна из сложных идей передискретизации. где создается класс меньшинства точек, где меньшинство указывает на большинство, чтобы заполнить пробел. Говоря простым языком, создайте регион, в котором точка меньшинства больше. И в этом регионе создайте точку меньшинства, чтобы заполнить разрыв между меньшинством и большинством (искусственным/синтетическим).

Как показано на рисунке, где красный — это класс большинства, зеленый — класс меньшинства, а желтый — точка пересечения для заполнения разрыва между ними.

еще один вес класса идей, где мы придаем больший вес классу меньшинства. В этом случае 1:9, если -ve точка там одна, мы рассчитываем как 9. но похоже на повтор.

Сбалансированные данные и несбалансированные данные

Вопросы по теме