Алгоритм PCA и KNN

Я использую KNN для классификации рукописных цифр. Я также реализовал PCA, чтобы уменьшить размерность. С 256 я перешел на 200. Но я заметил только потерю информации примерно на 0,10%. Я удалил 56 измерение. Разве убыток не должен быть больше? Только когда я опускаюсь до 5 измерений, я получаю потерю ~ 20%. Это нормально?

algorithm knn pca

Test Test 16.04.2012 источник

comment

Подобные вещи распространены во многих типах приложений. Это называется точкой убывающей отдачи. - Jim Mischel 17.04.2012

Ответы (2)

arrow_upward
10
arrow_downward

Вы говорите, что после удаления 56 измерений вы почти не потеряли информации? Конечно, в этом суть СПС! Анализ основных компонентов, как следует из названия, поможет вам определить, какие измерения несут информацию. И вы можете удалить остальное, что составляет большую часть.

Мне нужны примеры по генному анализу. Я читал статьи, в которых размерность уменьшена с 40 000 до 100 с помощью PCA, затем они делают какие-то волшебные вещи и имеют отличный классификатор с 19 измерениями. Это косвенно говорит о том, что они практически не потеряли информации, когда удалили 39'900 измерений!

B. Decoster 18.04.2012

comment

При использовании KNN нам нужно рассчитать расстояние между двумя точками. Если наше измерение превышает 3-мерное, наш единственный выбор - использовать PCA для 2-го и вычислить евклидово или манхэттенское расстояние? - haneulkim; 02.08.2020

arrow_upward
1
arrow_downward

Это нормально, да (и, как сказал Фезвез, суть того, что вы сделали). Ваш случай на самом деле является хорошим примером, из которого вы можете увидеть, как это возможно.

Взгляните на свои данные (в машинном обучении всегда важно знать свои данные). Если у вас есть изображения черных рукописных цифр на белом, высока вероятность того, что пиксели в некоторых углах будут белыми для всех образцов (у меня это было в одном углу, когда я делал машинное обучение на рукописных цифрах). Так что на самом деле в этом пикселе нет никакой информации. Если вы опустите это в качестве входных данных для вашего KNN или ANN или чего-то еще, у вас будут те же результаты.

kratenko 26.04.2012

Алгоритм PCA и KNN

Ответы (2)

Вопросы по теме