Анализ основных компонентов, или PCA, — это метод уменьшения размерности, который часто используется для уменьшения размерности больших наборов данных путем преобразования большого набора переменных в меньший, который по-прежнему содержит большую часть информации в больших наборах данных. установить.

Содержание

  1. Зачем нам это нужно?
  2. Что это?
  3. Шаги для его выполнения
  4. PCA с Python

Зачем нам это нужно?

Машинное обучение творит чудеса, когда у вас есть больше данных. Но становится сложно работать с большими данными, так как увеличивается сложность. Это приводит к проклятию размерности. Больше возможностей, больше размеров.

Что это?

PCA — это метод уменьшения размерности, который позволяет идентифицировать корреляцию и закономерности в наборе данных для преобразования в набор данных значительно меньших размеров без потери важных данных.

Если две прогностические функции в наборе данных сильно коррелированы, выходные данные будут сильно смещены по этим двум функциям.

Удалить ненужные данные:

  • Удаляет несоответствия
  • Избыточные данные
  • Высококоррелированные функции

Но убедитесь, что важные данные не должны быть удалены

Шаги для его выполнения

  1. Стандартизация данных
  2. Вычислите ковариацию матрицы
  3. Вычисление собственных векторов и собственных значений
  4. Вычисление основных компонентов
  5. Уменьшение размеров данных

PCA с Python