Как объяснить замену передискретизации чрезвычайно хорошими и идеальными результатами?

У меня чрезвычайно несбалансированные данные (100: 1), где 1 часть - это мой заинтересованный (меньшинство) класс. Я слышал о передискретизации (среди других методов) как о способе «обработки» несбалансированных данных. Итак, что я сделал, так это передискретизировал класс меньшинства путем повторной выборки с заменой до определенного соотношения (скажем, 2: 1).

Затем я разделил эту недавно сформированную (повторную) выборку на обучающую и тестовую выборку, и производительность значительно увеличилась с точности, напомню, F1 0,7, 0,4, 0,5 до 0,97, 0,97, 0,97.

Я делаю что-то не так, потому что это кажется слишком хорошим, чтобы быть правдой? Должен ли я сохранить исходный дистрибутив для тестового набора и вместо этого проводить избыточную выборку класса меньшинства в моем обучающем наборе?


person KubiK888    schedule 01.03.2016    source источник


Ответы (1)


Если я понял, как вы строите свои наборы, то очень вероятно, что почти все «интересные» точки в вашем тестовом наборе также находятся в обучающем наборе. Ваша модель, вероятно, подвергается переоснащению и учится точно воспроизводить обучающие данные без обязательного обобщения, и у вас нет возможности это обнаружить, потому что вы не проверяете модель, используя данные вне обучающего набора. Разделение данных на обучение и тестирование перед применением передискретизации должно предотвратить это.

person hobbs    schedule 01.03.2016