Анализ главных компонентов (PCA) - это метод уменьшения линейной размерности, который можно использовать для извлечения информации из пространства большой размерности, проецируя ее в подпространство меньшей размерности. Он пытается сохранить важные части, которые имеют больше вариаций данных, и удалить второстепенные части с меньшими вариациями. Размеры - это не что иное, как функции, которые представляют данные.

Согласно Википедии, PCA - это статистическая процедура, которая использует ортогональное преобразование для преобразования набора наблюдений за возможно коррелированными переменными (объекты, каждая из которых принимает различные числовые значения) в набор значений линейно некоррелированных переменных, называемых главными компонентами.

Как работает PCA?

  • Вычислите матрицу, которая суммирует, как все наши переменные соотносятся друг с другом.
  • Разбейте эту матрицу на два отдельных компонента: направление и величину. Затем мы можем понять «направления» наших данных и их «величину» (или насколько «важно» каждое направление).

Матрица главных компонентов имеет те же размеры, что и исходная матрица данных; однако многие ПК могут быть неинформативными, поэтому обычно требуется сокращение количества ПК. Для этого полезно исследовать величину дисперсии, объясняемую каждым новым вектором ПК.

Есть три общих подхода, помогающих принять это решение:

  1. Критерий собственного значения
  2. Доля объясненной дисперсии критерий
  3. Критерий построения осыпи

В этом блоге мы рассмотрим критерий построения осыпи -

Распространенным методом определения количества сохраняемых ПК является графическое представление, известное как осыпная диаграмма. График осыпи - это простой график линейного сегмента, который показывает собственные значения для каждого отдельного ПК. Он показывает собственные значения по оси y и количество факторов по оси x. Он всегда показывает нисходящую кривую. Большинство участков на осыпях выглядят примерно одинаково по форме, начиная с левой стороны, довольно быстро падая, а затем сглаживаясь в какой-то момент. Это связано с тем, что первый компонент обычно объясняет большую часть изменчивости, следующие несколько компонентов объясняют умеренную величину, а последние компоненты объясняют только небольшую часть общей изменчивости. Критерий построения осыпи ищет «изгиб» на кривой и выбирает все компоненты непосредственно перед тем, как линия выравнивается. (В литературе PCA этот участок называется «участок осыпи», потому что он часто выглядит как склон «осыпи», где камни упали и скопились на склоне горы.)

Когда собственные значения резко уменьшаются в размере, дополнительный фактор может относительно мало добавить к уже извлеченной информации.

Загрузка данных и визуализация осыпи

Давайте выполним PCA на BFI (набор данных, основанный на проекте оценки личности), которые были собраны с использованием 6-балльной шкалы ответов: 1 очень неточно, 2 умеренно неточно, 3 слегка неточно, 4 слегка неточно, 5 умеренно и 6 очень точно. Вы также можете скачать этот набор данных по следующей ссылке: https://vincentarelbundock.github.io/Rdatasets/datasets.html

Здесь мы применяем PCA к данным BFI и визуализируем с помощью осыпи. Мы можем видеть, что есть два фактора (PC) с собственными значениями ≥ 1 и точкой изгиба также в одной и той же точке. На приведенном выше рисунке для описания данных достаточно только ПК 1 и 2.

Чтобы справиться с не очень идеальной кривой участка осыпи, есть несколько способов:

  1. Правило Кайзера: выбирайте ПК с собственным значением не менее 1.
  2. График пропорции дисперсии: выбранные ПК должны быть в состоянии описать не менее 80% дисперсии.

Если у вас будет слишком много основных компонентов (более 3), PCA может оказаться не лучшим способом визуализировать ваши данные. Вместо этого рассмотрите другие методы уменьшения размерности, такие как t-SNE, MDS и т. Д.

Этот тест иногда критикуют за его субъективность. Графики осыпи могут иметь несколько «изгибов», что затрудняет определение правильного количества факторов или компонентов, которые необходимо сохранить, что делает тест ненадежным. Также не существует стандарта для масштабирования осей x и y, что означает, что разные статистические программы могут создавать разные графики из одних и тех же данных. Была предложена более объективная версия теста осыпи, называемая тестом осыпи Кеттелла – Нельсона – Горсача (тест осыпи CNG).