Анализ основных компонентов, или PCA, — это метод уменьшения размерности, который часто используется для уменьшения размерности больших наборов данных путем преобразования большого набора переменных в меньший, который по-прежнему содержит большую часть информации в больших наборах данных. установить.
Содержание
- Зачем нам это нужно?
- Что это?
- Шаги для его выполнения
- PCA с Python
Зачем нам это нужно?
Машинное обучение творит чудеса, когда у вас есть больше данных. Но становится сложно работать с большими данными, так как увеличивается сложность. Это приводит к проклятию размерности. Больше возможностей, больше размеров.
Что это?
PCA — это метод уменьшения размерности, который позволяет идентифицировать корреляцию и закономерности в наборе данных для преобразования в набор данных значительно меньших размеров без потери важных данных.
Если две прогностические функции в наборе данных сильно коррелированы, выходные данные будут сильно смещены по этим двум функциям.
Удалить ненужные данные:
- Удаляет несоответствия
- Избыточные данные
- Высококоррелированные функции
Но убедитесь, что важные данные не должны быть удалены
Шаги для его выполнения
- Стандартизация данных
- Вычислите ковариацию матрицы
- Вычисление собственных векторов и собственных значений
- Вычисление основных компонентов
- Уменьшение размеров данных