Так что же такое PCA, welp PCA на самом деле означает Анализ основных компонентов. Независимо от названия, PCA на самом деле можно объяснить довольно просто. Рассмотрим несколько атрибутов человека, а именно длину ноги, длину туловища, длину шеи, лицо и так далее. Хранение такого большого объема данных не только займет больше места в вашем локальном хранилище, но и экспоненциально увеличит время, необходимое для вычислений.

Простым способом решения этой проблемы может быть сокращение количества атрибутов, в данном случае четырех, до одного атрибута — его роста. На самом деле это действительно отличный пример преобразования 4D-матрицы в простую 1D-матрицу.

Однако при дальнейшем изучении этого единственного атрибута высоты вы понимаете, что некоторые действительно важные данные могут быть потеряны, например, реальная длина лица человека, которая может понадобиться для распознавания лиц. Теперь, чтобы решить эту проблему, у нас есть область статистики и, что более важно, понятия среднего, дисперсии, ковариации и т. д.

Итак, что же представляют собой эти понятия вероятность? Я почти уверен, что вы использовали различные слова для описания в своей повседневной жизни, такие как длинный, короткий и т. д. Точно так же слова, описывающие данные, — это среднее значение, дисперсия и ковариация. Эти три понятия помогают описать любое измерение данных почти в сжатой форме.

Теперь, что значит? (каламбур). Среднее значение в основном представляет собой среднее значение данных. Его можно рассматривать как среднее значение данных.

Точно так же дисперсия дает величину разрыва в данных, т.е. распространение данных. Наконец, ковариация аналогична дисперсии с дополнительным фактором направления. Ниже я попытаюсь объяснить эти концепции лучше.

Рассмотрим следующие данные:

Теперь, когда эти данные представлены в двух измерениях, что, если бы их можно было представить в одном измерении, скажем, в виде линии?

ПРИМЕЧАНИЕ. Это произвольная линия, не полученная из какой-либо модели линейной регрессии.

Теперь, если мы рассмотрим эту линию и отразим на ней все наши точки данных, мы получим отличный набор данных, расположенный на одной линии. И для этого набора данных этого может быть достаточно!

Однако по мере роста набора данных различные крошечные ошибки могут значительно изменить окончательный результат, что может привести к неправильным и противоречивым прогнозам. Поэтому, чтобы решить эту проблему, нам нужно найти среднее, дисперсию и, в данном случае, ковариацию.

Среднее дается суммой всех значений, разделенной на количество значений. Таким образом, при решении этого набора данных мы получаем среднее значение (33,27).

Следующим шагом будет нахождение дисперсии. Дисперсия в основном представляет собой среднее квадрата суммы расстояний от среднего. В этом случае нам нужно будет найти Var(X) и Var(Y), поскольку у нас есть набор 2D-данных. Дисперсия X в этом случае будет 694, а дисперсия Y 1247.

И, наконец, ковариация. Ковариация аналогична дисперсии с дополнительным фактором сохранения направления разброса точек от среднего. Он дает направление тренда. В этом случае ковариация будет -241,4.

Итак, с помощью этого метода мы видим, что весь набор данных можно рассматривать как линию: 0,3x + y = 51,928 (вычислено произвольно), среднее: (33, 27), дисперсия: (694,1247) и ковариация (-241,4)

Итак, это решает проблему (m x 2), но как насчет (m x 5+) кадра данных. Решением этой проблемы является не что иное, как Собственное значение и его Вектора. До сих пор мы знали, что матрица на самом деле представляет собой набор точек в пространстве, которые относятся к n-мерному объекту. Умножение двух n-мерных векторов приводит к линейному преобразованию этих точек. Теперь, при дальнейшем рассмотрении пути преобразования, n точек кажутся преобразованными по прямой линии, т. е. изменилась только их величина. Здесь n — минимальное значение ранга всех векторов. Собственные значения и векторы можно рассчитать на этом сайте.

Теперь, после нахождения nсобственных значений, мы выбираем несколько среди них, а затем, основываясь на (n-мерной) поверхности, делаем проекцию этих точек данных на эту поверхность, а затем переходим к рассчитать среднее значение, дисперсию и т. д. набора данных.

В заключение, PCA представляет собой группу шагов, которые необходимо выполнить, чтобы преобразовать высокоразмерный фрейм данных в более простой и гораздо более общий фрейм данных. сильный>. Шаги включены

  1. Если набор данных большой, найдите его собственные значения; в противном случае вы можете пропустить этот шаг.
  2. Теперь на основе этих собственных значений выберите несколько из них, которые, по вашему мнению, лучше всего описывают ваши данные, и найдите их собственный вектор.
  3. Теперь найдите проекцию вашего набора данных на эту поверхность.
  4. При необходимости найдите среднее, дисперсию, ковариацию этих данных, чтобы мы могли найти наилучшее соответствие для данных.
  5. Теперь у вас есть набор данных, уменьшенный до гораздо более простого, но очень информативного фрейма данных.