У меня чрезвычайно несбалансированные данные (100: 1), где 1 часть - это мой заинтересованный (меньшинство) класс. Я слышал о передискретизации (среди других методов) как о способе «обработки» несбалансированных данных. Итак, что я сделал, так это передискретизировал класс меньшинства путем повторной выборки с заменой до определенного соотношения (скажем, 2: 1).
Затем я разделил эту недавно сформированную (повторную) выборку на обучающую и тестовую выборку, и производительность значительно увеличилась с точности, напомню, F1 0,7, 0,4, 0,5 до 0,97, 0,97, 0,97.
Я делаю что-то не так, потому что это кажется слишком хорошим, чтобы быть правдой? Должен ли я сохранить исходный дистрибутив для тестового набора и вместо этого проводить избыточную выборку класса меньшинства в моем обучающем наборе?