Несбалансированные данные и методы выборки

В зависимости от области применения вашей модели машинного обучения велика вероятность того, что вы иногда будете сталкиваться с наборами данных, 90–99% экземпляров которых относятся к классу большинства. К сожалению, это может иметь серьезные последствия для показателей производительности многих популярных моделей бинарной классификации, таких как деревья решений C4.5, логистическая регрессия, машины опорных векторов, наивный байесовский метод и даже сильно разрекламированная функция многослойного персептрона / радиального базиса. Первым шагом к решению этой проблемы является применение методов предварительной обработки выборки к вашему набору данных. На практике существует две категории методов выборки, описываемых как случайная и «интеллектуальная».

Сами по себе методы случайной выборки, такие как недостаточная / избыточная выборка (случайное удаление / дублирование экземпляров из классов большинства / меньшинства соответственно), превзошли интеллектуальные методы выборки, такие как редактирование Уилсона или техника передискретизации синтетического меньшинства. Однако комбинации методов предварительной обработки, таких как редактирование Уилсона и случайная недискретизация, показали себя очень хорошо. Важно отметить, что экземпляры меньшинства с передискретизацией будут очень трудными для больших наборов данных.

Помимо методов выборки, эти модели должны будут найти для оценки различные показатели производительности. Общая метрика точности будет недостаточной, потому что, если у вас есть соотношение большинства: меньшинство экземпляров 99: 1, простая маркировка всех экземпляров как большинства приведет к 99% точности. Есть много других показателей производительности, таких как AUC под кривой ROC, отображающей частоту ложных срабатываний по сравнению с истинно положительными результатами, которые больше подходят для моделей бинарной классификации. Тем не менее, существует также множество исследований таких методов, как статистика K / S, F-мера и среднее геометрическое, для определения показателей производительности моделей классификации.

Спасибо за прочтение!

Несбалансированные данные и методы выборки

Вопросы по теме