Оценка производительности встраивания нейронной сети в классификатор kNN

Я решаю задачу классификации. Я обучаю свою неконтролируемую нейронную сеть набору сущностей (используя архитектуру пропуска грамм).

Для оценки я ищу k ближайших соседей для каждой точки в проверочных данных, из обучающих данных. Я беру взвешенную сумму (веса в зависимости от расстояния) меток ближайших соседей и использую эту оценку каждой точки данных проверки.

Наблюдение. По мере увеличения числа эпох (model1 – 600 эпох, model 2 – 1400 эпох и model 3 – 2000 эпох) моя AUC улучшается при меньших значениях k, но достигает насыщения при тех же значениях.

Что может быть возможным объяснением такого поведения?

[Перепост из CrossValidated]

kampta 05.02.2016 источник

comment

Я пытаюсь разделить отзывы клиентов на две категории. Эмбеддинги обучаются с использованием предложения2vec. Я написал собственный классификатор kNN для Hadoop. - kampta 14.02.2016

comment

Может быть, просто недостаточно разделимости между двумя классами? Например, если бы это был какой-то тип анализа настроений, то мы часто сталкивались бы с двойными отрицательными выражениями, которые могут нарушить наивный классификатор. - John Wakefield 14.02.2016

comment

Если model3 лучше классифицирует такие случаи, не будет ли у него лучше AUC, чем у model1? - kampta 15.02.2016

comment

Каков размер совокупности ваших данных и одинаково ли он сбалансирован между двумя классами? Кажется, что model3 лучше справляется с классификацией, что очевидно при низком k. Однако все модели выигрывают от искаженных/несбалансированных данных с большим значением k. Можем ли мы это исключить? - John Wakefield 15.02.2016

comment

Набор данных @JohnWakefield Training содержит около 50000 примеров с примерно 1200 положительными результатами. Может ли асимметрия быть причиной одинакового поведения всех моделей при больших значениях k? В таком случае не должны ли результаты быть наихудшими при этих значениях k? - kampta 16.02.2016

comment

Чтобы избавиться от теории отрицательной асимметрии, нужно изменить режим тестирования, включив в него больше положительных результатов — возможно, даже 100% положительных результатов. Если есть смещение в сторону ложноотрицательных результатов, это будет легко заметить по ухудшению AUC. - John Wakefield 16.02.2016

Ответы (1)

arrow_upward
0
arrow_downward

Чтобы проверить, являются ли несбалансированные классы проблемой, попробуйте подобрать модель SVM. Если это дает лучшую классификацию (возможно, если ваша ИНС не очень глубокая), можно сделать вывод, что сначала следует сбалансировать классы.

Кроме того, попробуйте некоторые функции ядра, чтобы проверить, делает ли это преобразование линейно разделимыми данные?

Outlier 30.10.2017

Оценка производительности встраивания нейронной сети в классификатор kNN

Ответы (1)

Вопросы по теме