Я использую KNN для классификации рукописных цифр. Я также реализовал PCA, чтобы уменьшить размерность. С 256 я перешел на 200. Но я заметил только потерю информации примерно на 0,10%. Я удалил 56 измерение. Разве убыток не должен быть больше? Только когда я опускаюсь до 5 измерений, я получаю потерю ~ 20%. Это нормально?
Алгоритм PCA и KNN
Ответы (2)
Вы говорите, что после удаления 56 измерений вы почти не потеряли информации? Конечно, в этом суть СПС! Анализ основных компонентов, как следует из названия, поможет вам определить, какие измерения несут информацию. И вы можете удалить остальное, что составляет большую часть.
Мне нужны примеры по генному анализу. Я читал статьи, в которых размерность уменьшена с 40 000 до 100 с помощью PCA, затем они делают какие-то волшебные вещи и имеют отличный классификатор с 19 измерениями. Это косвенно говорит о том, что они практически не потеряли информации, когда удалили 39'900 измерений!
Это нормально, да (и, как сказал Фезвез, суть того, что вы сделали). Ваш случай на самом деле является хорошим примером, из которого вы можете увидеть, как это возможно.
Взгляните на свои данные (в машинном обучении всегда важно знать свои данные). Если у вас есть изображения черных рукописных цифр на белом, высока вероятность того, что пиксели в некоторых углах будут белыми для всех образцов (у меня это было в одном углу, когда я делал машинное обучение на рукописных цифрах). Так что на самом деле в этом пикселе нет никакой информации. Если вы опустите это в качестве входных данных для вашего KNN или ANN или чего-то еще, у вас будут те же результаты.