Алгоритм PCA и KNN

Я использую KNN для классификации рукописных цифр. Я также реализовал PCA, чтобы уменьшить размерность. С 256 я перешел на 200. Но я заметил только потерю информации примерно на 0,10%. Я удалил 56 измерение. Разве убыток не должен быть больше? Только когда я опускаюсь до 5 измерений, я получаю потерю ~ 20%. Это нормально?


person Test Test    schedule 16.04.2012    source источник
comment
Подобные вещи распространены во многих типах приложений. Это называется точкой убывающей отдачи.   -  person Jim Mischel    schedule 17.04.2012


Ответы (2)


Вы говорите, что после удаления 56 измерений вы почти не потеряли информации? Конечно, в этом суть СПС! Анализ основных компонентов, как следует из названия, поможет вам определить, какие измерения несут информацию. И вы можете удалить остальное, что составляет большую часть.

Мне нужны примеры по генному анализу. Я читал статьи, в которых размерность уменьшена с 40 000 до 100 с помощью PCA, затем они делают какие-то волшебные вещи и имеют отличный классификатор с 19 измерениями. Это косвенно говорит о том, что они практически не потеряли информации, когда удалили 39'900 измерений!

person B. Decoster    schedule 18.04.2012
comment
При использовании KNN нам нужно рассчитать расстояние между двумя точками. Если наше измерение превышает 3-мерное, наш единственный выбор - использовать PCA для 2-го и вычислить евклидово или манхэттенское расстояние? - person haneulkim; 02.08.2020

Это нормально, да (и, как сказал Фезвез, суть того, что вы сделали). Ваш случай на самом деле является хорошим примером, из которого вы можете увидеть, как это возможно.

Взгляните на свои данные (в машинном обучении всегда важно знать свои данные). Если у вас есть изображения черных рукописных цифр на белом, высока вероятность того, что пиксели в некоторых углах будут белыми для всех образцов (у меня это было в одном углу, когда я делал машинное обучение на рукописных цифрах). Так что на самом деле в этом пикселе нет никакой информации. Если вы опустите это в качестве входных данных для вашего KNN или ANN или чего-то еще, у вас будут те же результаты.

person kratenko    schedule 26.04.2012