Выбор признаков:Выбор признаков — это один из двух процессов сокращения признаков, второй — извлечение признаков — это процесс, посредством которого подмножество признаков или переменных выбирается из большего набора данных для построения модели.

Он также известен как «Выбор переменной/Выбор атрибута/Выбор подмножества переменной».

Основная идея заключается в том, что выбор функций заключается в том, чтобы сосредоточиться на выборе функций, чтобы выбрать функции, которые хорошо представляют набор данных, исключая избыточные и нерелевантные функции.

Почему выбор функций полезен:

  1. Сокращение времени обучения: сокращение времени обработки, что приводит к сокращению времени обучения машины из-за использования только соответствующего подмножества данных.
  2. Проклятие размерности. Проклятия размерности также можно избежать, поскольку выбор признаков может уменьшить количество измерений данных. Этот метод выбора признаков потенциально может сделать данные достаточно статистически значимыми, чтобы избежать проклятия.

Различные методы выбора функций:

  1. Методы фильтрации:

Этот выбор функции называется «на основе фильтра», поскольку вы используете выбранную метрику для выявления нерелевантных атрибутов и отфильтровываете лишние столбцы из своей модели. Вы выбираете единственную статистическую меру, которая соответствует вашим данным, и модуль вычисляет оценку для каждого столбца функции. Столбцы возвращаются ранжированными в соответствии с их оценками характеристик.

Выбор характеристик на основе фильтров предоставляет множество показателей для оценки ценности информации в каждом столбце. В этом разделе представлено общее описание каждой метрики и способов ее применения.

A] Методы фильтрации с низкой дисперсией:

Идея о том, что функции с низкой дисперсией содержат меньше информации

b] Удаление повторяющейся функции:

c] Коэффициент корреляции:

Корреляция – это двуфакторный анализ, который измеряет силу связи между двумя переменными и направление связи.

С точки зрения силы связи значение коэффициента корреляции варьируется от +1 до -1.

Значение ± 1 указывает на идеальную степень связи между двумя переменными (Положительная корреляция или Отрицательная корреляция).

По мере приближения значения коэффициента корреляции к 0 взаимосвязь между двумя переменными будет слабее (Нет корреляции). Направление связи указывается знаком коэффициента; знак + указывает на положительную связь, а знак - указывает на отрицательную связь.

Параметрическая корреляция:

i) Коэффициент корреляции Пирсона:

Визуализация с использованием корреляционной матрицы:

d] Дисперсионный анализ (дисперсионный анализ)

i) Однофакторный дисперсионный анализ:

ii) Двухсторонний дисперсионный анализ:

e] Методы хи-квадрата:

f] Взаимная информация

2. Методы обертки:

а. Выбор вперед

б. Обратный выбор

в. Пошаговый выбор

3. Встроенный выбор

а. Лассо

б. хребет

в. Эластичная сеть