Анализ главных компонентов

Анализ основных компонентов, или PCA, — это метод уменьшения размерности, который часто используется для уменьшения размерности больших наборов данных путем преобразования большого набора переменных в меньший, который по-прежнему содержит большую часть информации в больших наборах данных. установить.

Содержание

Зачем нам это нужно?
Что это?
Шаги для его выполнения
PCA с Python

Зачем нам это нужно?

Машинное обучение творит чудеса, когда у вас есть больше данных. Но становится сложно работать с большими данными, так как увеличивается сложность. Это приводит к проклятию размерности. Больше возможностей, больше размеров.

Что это?

PCA — это метод уменьшения размерности, который позволяет идентифицировать корреляцию и закономерности в наборе данных для преобразования в набор данных значительно меньших размеров без потери важных данных.

Если две прогностические функции в наборе данных сильно коррелированы, выходные данные будут сильно смещены по этим двум функциям.

Удалить ненужные данные:

Удаляет несоответствия
Избыточные данные
Высококоррелированные функции

Но убедитесь, что важные данные не должны быть удалены

Шаги для его выполнения

Стандартизация данных
Вычислите ковариацию матрицы
Вычисление собственных векторов и собственных значений
Вычисление основных компонентов
Уменьшение размеров данных

Анализ главных компонентов

Содержание

Зачем нам это нужно?

Что это?

Шаги для его выполнения

PCA с Python

Вопросы по теме