За пределами обычного PCA: нелинейный анализ главных компонент

Устранение ограничений линейности

TL; DR: PCA не может обрабатывать категориальные переменные, потому что делает о них линейные предположения. Нелинейный PCA решает эту проблему, искажая пространство признаков для оптимизации объясненной дисперсии. (Ключевые моменты внизу.)

Анализ главных компонентов (PCA) - один из самых мощных методов обучения без учителя в машинном обучении. Учитывая многомерные данные, PCA найдет уменьшенное количество n некоррелированных (ортогональных) измерений, пытаясь сохранить как можно больше вариаций в исходном наборе данных. Это достигается путем создания новых функций (основных компонентов) в виде линейных комбинаций существующих столбцов.

Однако PCA не может обрабатывать номинальные - категориальные, такие как состояние - или порядковые - категориальные и последовательные, например буквенные оценки (A +, B-, C,…) - столбцы. Это связано с тем, что такая метрика, как дисперсия, которую PCA явно пытается смоделировать, по своей сути является числовой мерой. Если бы кто-то использовал PCA для данных с номинальными и порядковыми столбцами, он в конечном итоге сделал бы глупые предположения вроде `` Калифорния - это половина Нью-Джерси '' или `` А + минус четыре равно D '', поскольку он должен создавать такие отношения для работы .

Перефразируя с математической точки зрения, PCA основывается на линейных отношениях, то есть на предположении, что расстояние между «категорически не согласен» и «не согласен» такое же, как и разница между «не согласен» и «не согласен». нейтральный ». Почти в каждом реальном наборе данных такого рода линейные отношения существуют не для всех столбцов.

Кроме того, использование горячего кодирования, то есть преобразование категориальных данных в векторы из единиц и нулей, приводит к чрезвычайно разреженному и перегруженному информацией многомерному пространству, в котором PCA не может хорошо работать, поскольку несколько функций содержат только два уникальных значения.

Нелинейный PCA исправляет этот аспект PCA путем обобщения методов приближения к уменьшению размерности не только для числовых характеристик, но и для категориальных и порядковых переменных. Это делается посредством категориальной количественной оценки.

Категориальная количественная оценка (CQ) - это именно то, что предполагает ее название: она присоединяет числовое представление к каждой категории, преобразуя категориальные столбцы в числовые, так что производительность модели PCA (например, объясненная дисперсия) максимизируется. CQ оптимально размещает категории в числовом измерении вместо того, чтобы делать предположения о них.

Эта информация может быть очень полезной. Например, мы могли бы сказать, что Вашингтон и Айдахо имеют очень похожие структуры в других частях данных, потому что они расположены так близко, или что Калифорния и Вирджиния нигде не похожи, потому что они расположены далеко друг от друга. В этом смысле CQ не только обогащает модель PCA категориальными данными, но также дает нам возможность взглянуть на структуры данных по состояниям.

Альтернативный вид CQ - это линейный график. Хотя в случае номинальных данных порядок столбцов произвольный и нет необходимости в соединительных линиях, он визуализируется таким образом, чтобы продемонстрировать номинальный уровень анализа. Если уровень функции указан как номинальный, он может принимать любое числовое значение.

С другой стороны, если уровень функции указан как порядковый, ограничение состоит в том, что порядок должен быть сохранен. Например, соотношение между «A» и «B» в том, что «A» лучше, чем «B», должно быть сохранено, что может быть представлено с помощью A=0 и B=5 (при условии, что 0 является лучшим) или A=25 и B=26, пока поскольку B никогда не меньше A. Это помогает сохранить структуру порядковых данных.

Как и CQ для номинальных данных, это чрезвычайно полезно. Например, мы замечаем, что среди плюсов и минусов буквенных оценок (A +, A, A-) нет большой разницы, но разница между X - и Y + (X и Y - последовательные буквы) всегда приводит к большому скачку, особенно разница между D и F. Повторяю вышесказанное - эта диаграмма создается путем нахождения оптимальные значения для категорий, при которых модель PCA работает лучше всего (объясненная дисперсия самая высокая).

Обратите внимание: поскольку CQ определяет пространство между точками данных (например, разница между A и A- намного меньше, чем между D и F), он искажает пространство, в котором лежат эти точки. Вместо предположения о линейной зависимости (A и A- такие же близкие, как D и F), CQ искажает расстояния между общими интервалами - следовательно, нелинейный PCA.

Чтобы дать представление о нелинейностях, которые могут возникнуть при изменении расстояния между последовательными интервалами, вот квадрат 3 на 3 в искаженном пространстве:

При использовании категориальной количественной оценки пространство признаков искажается - в хорошем смысле! Интервалы выбираются выборочно так, чтобы производительность PCA была максимальной. В этом смысле нелинейный PCA не только может рассматриваться как метод кодирования для порядковых и номинальных переменных, но также увеличивает глобальную силу модели PCA.

Хотя математика, лежащая в основе нелинейного PCA, очень разнообразна, в целом NPCA использует те же методы, что и PCA (например, решение собственных значений и т. Д.), Но использует CQ для получения максимальной информации и получения выгоды для модели.

Ключевые моменты

  • PCA не может обрабатывать номинальные (категориальные) или порядковые (последовательные) столбцы, потому что это по своей сути числовой алгоритм и делает глупые линейные предположения об этих типах данных.
  • Нелинейный PCA использует категориальную количественную оценку, которая находит наилучшее числовое представление уникальных значений столбцов, так что производительность (объясненная дисперсия) модели PCA с использованием преобразованных столбцов оптимизируется.
  • Категориальная количественная оценка - это очень проницательный метод интеллектуального анализа данных, который может дать много информации о структурах данных через призму категориального значения. К сожалению, использование нелинейного PCA означает, что коэффициенты главных компонентов менее интерпретируемы (но все же понятны, только с меньшей статистической строгостью).

Все изображения созданы автором