В машинном обучении извлечение признаков проецирует начальный набор функций из пространства большой размерности в сокращенный набор функций из пространства низкой размерности, при этом описывая данные с достаточной точностью. Алгоритмы выбора характеристик могут быть линейными или нелинейными.

Нелинейные методы предполагают, что интересующие данные лежат на вложенном нелинейном многообразии в многомерном пространстве. Если коллектор имеет достаточно низкую размерность, мы могли бы визуализировать данные в низкоразмерном пространстве. Таким образом, мы в широком смысле классифицируем нелинейные методы на две группы: те, которые обеспечивают отображение, и те, которые дают визуализацию. Многие из этих методов уменьшения нелинейной размерности относятся к линейным методам.

Линейные методы выполняют линейное отображение данных в пространство меньшей размерности. Наиболее распространенными линейными методами выделения признаков являются анализ главных компонентов (PCA) и линейный дискриминантный анализ (LDA).

PCA использует ортогональное преобразование для преобразования данных в пространство меньшей размерности, при этом максимизируя дисперсию данных. Разница отражает различия в данных. Результирующие функции представляют собой некоррелированный ортогональный базисный набор, называемый главными компонентами. Вектор признаков, соответствующий наибольшему собственному значению, содержит самый большой объем информации. Если несколько собственных значений некоторых функций малы, это означает, что в этих функциях мало информации. На практике мы обычно отбрасываем эти функции, чтобы увеличить плотность выборок и удалить шум.

Идея LDA довольно проста. Учитывая набор обучающих выборок, LDA пытается спроецировать выборку на прямую линию так, чтобы точки проекции межклассовых выборок были как можно ближе, а точки проекции внутриклассовых выборок находились как можно дальше друг от друга. При классификации нового образца мы проецировали его на ту же линию. Классификация этого образца определяется на основе положения прогнозируемой точки. В отличие от PCA, который пытается сохранить информацию о данных в максимально возможной степени, LDA должен сделать точки данных более различимыми после уменьшения размерности.

PCA максимизирует внутреннюю информацию данных после уменьшения размера и определяет важность направления путем измерения дисперсии данных в направлении проекции. Однако таких прогнозов может быть недостаточно, чтобы различать классы данных. Вместо этого они могут сделать точки данных неразличимыми. PCA в основном находит лучшие методы проекции с точки зрения ковариации признаков.

LDA принимает во внимание маркировку. Цель состоит в том, чтобы расстояние между точками данных разных категорий после проекции было более значительным, а расстояние между точками данных того же класса более компактным. Следовательно, LDA более полезен для задач классификации.