Выбор функции для уменьшения размерности (метод фильтрации).

В машинном обучении выбор важных функций в данных является важной частью полного цикла.

Передача данных с нерелевантными функциями может повлиять на производительность модели, поскольку модель изучает переданные в нее нерелевантные функции.

Необходимость выбора функции:

Это помогает упростить модели, чтобы их было легче и быстрее обучать.
Сокращает время тренировки.
Помогает избежать проклятия размерности,
Усиленное обобщение за счет уменьшения переобучения (формально уменьшение дисперсии)

Методы выбора характеристик

Есть три основных метода выбора функций:

Метод фильтрации

Этот метод обычно выполняется как один из этапов предварительной обработки перед передачей данных для построения модели.
Выполняются различные статистические тесты, и функции выбираются на основе их баллов.
Методы фильтрации менее точны, но быстрее вычисляются.
Для больших наборов данных предпочтительно использовать методы фильтрации, так как они быстро вычисляются.
Фильтры. Методы хороши для теоретической основы и понимания структуры данных.

Есть разные способы:

Метод корреляции:
→ Он используется в качестве меры линейной зависимости между двумя непрерывными переменными X и Y.
→ Диапазон от -1 до 1, где значение, близкое к 1, показывает, что они сильно коррелированы, а значение, близкое к -1, указывает на их отрицательную корреляцию.
→ Метод корреляции помогает определить, какие переменные очень похожи друг на друга.
→ Другой метод корреляции включает:
* Пирсон Коэффициент корреляции.
* Коэффициент корреляции Спирмена.

Пирсон и Спирмен - это совершенно разные тесты.
Корреляция Пирсона помогает найти «линейную взаимосвязь» между переменными, тогда как корреляция Спирмена помогает найти «монотонную взаимосвязь» между переменными.
В большинстве случаев предпочтительна корреляция Пирсона. однако мне нравится тестировать и Пирсона, и Спирмена. Если результаты теста Спирмена больше, чем результаты теста Пирсона, это показывает, что переменные показывают более монотонную взаимосвязь, чем линейную взаимосвязь.

Тест хи-квадрат:
→ тест хи-квадрат используется для категориальных функций в наборе данных.
→ Мы вычисляем хи-квадрат между каждой характеристикой и целью и выбираем желаемое количество функций с лучшими показателями хи-квадрат.
→ Он определяет, будет ли связь между двумя категориальными переменными выборки отражать их реальное объединение в популяции.

Anova:
→ Дисперсионный анализ - это статистический метод, используемый для проверки средних значений двух или более групп, которые значительно отличаются друг от друга. Предполагается, что Гипотеза выглядит как
* Null: Средние значения всех групп равны.
* Альтернативно: По крайней мере, одно среднее значение групп различно.
→ Он проверяет влияние одного или нескольких факторов, сравнивая средние значения разных образцов.
→ Anova и T-тест в основном работают одинаково, когда проводятся только на двух образцах, однако, если более двух образцов Если сравнивать, то используется Anova, так как использование T-теста будет иметь комбинированный эффект на частоту ошибок.
→ Выполнение T-теста на более чем двух образцах даст примерно 15% ошибок, тогда как использование ANOVA сохранит его всего 5% для 95% доверительного интервала.

Доверительный интервал - это диапазон, в котором находится статистика выборки.

Фактор инфляции дисперсии (VIF):
→ Коэффициент инфляции дисперсии (VIF) обеспечивает меру мультиколлинеарности между независимыми переменными в модели множественной регрессии.
→ Обнаружение мультиколлинеарности важно потому что, хотя он не снижает объяснительную силу модели, он снижает статистическую значимость независимых переменных.
→ Большой VIF для независимой переменной указывает на сильно коллинеарную связь с другими переменными, которые следует учитывать или с поправкой на структуру модели и выбор независимых переменных.
→ VIF можно интерпретировать по полученным значениям:
* 1 - показывает неколинеарность
* от 1 до 5 - показывает присутствует некоторая коллинеарность
* ›5 - Присутствует высокая коллинеарность
→ Определяется с помощью значения коэффициента детерминации (R-Squared).
Чем выше R-Squared »Значение больше значение будет ближе к 1.

Здесь 1-R2 также называется допуском.

Существует множество методов фильтрации, которые определяют, какую функцию выбрать. Понимание того, когда использовать то, что приходит с практикой. Однако я предлагаю опробовать различные методы и посмотреть, какие из них лучше всего помогают в выборе функций, не оказывая слишком большого влияния на точность модели.
Выше приведены несколько основных методов, которые следует тщательно изучить, прежде чем переходить к другим методам.

На следующей неделе появится метод WRAPPER METHOD для выбора функций.

ПРИВЕТСТВЕННОГО УЧЕНИЯ !!!!

Понравилась моя статья? Обязательно хлопайте мне в ладоши и поделитесь ими, так как это повысит мою уверенность. Кроме того, я публикую новые статьи каждое воскресенье, так что оставайтесь на связи, чтобы быть на связи в будущих статьях из серии статей по основам науки о данных и машинного обучения.

Также, если хочешь, то свяжись со мной на connectedIn.