В машинном обучении выбор важных функций в данных является важной частью полного цикла.
Передача данных с нерелевантными функциями может повлиять на производительность модели, поскольку модель изучает переданные в нее нерелевантные функции.
Необходимость выбора функции:
- Это помогает упростить модели, чтобы их было легче и быстрее обучать.
- Сокращает время тренировки.
- Помогает избежать проклятия размерности,
- Усиленное обобщение за счет уменьшения переобучения (формально уменьшение дисперсии)
Методы выбора характеристик
Есть три основных метода выбора функций:
- Метод фильтрации
- Метод обертки
- Встроенный метод
Метод фильтрации
- Этот метод обычно выполняется как один из этапов предварительной обработки перед передачей данных для построения модели.
- Выполняются различные статистические тесты, и функции выбираются на основе их баллов.
- Методы фильтрации менее точны, но быстрее вычисляются.
- Для больших наборов данных предпочтительно использовать методы фильтрации, так как они быстро вычисляются.
- Фильтры. Методы хороши для теоретической основы и понимания структуры данных.
Есть разные способы:
- Метод корреляции:
→ Он используется в качестве меры линейной зависимости между двумя непрерывными переменными X и Y.
→ Диапазон от -1 до 1, где значение, близкое к 1, показывает, что они сильно коррелированы, а значение, близкое к -1, указывает на их отрицательную корреляцию.
→ Метод корреляции помогает определить, какие переменные очень похожи друг на друга.
→ Другой метод корреляции включает:
* Пирсон Коэффициент корреляции.
* Коэффициент корреляции Спирмена.
Пирсон и Спирмен - это совершенно разные тесты.
Корреляция Пирсона помогает найти «линейную взаимосвязь» между переменными, тогда как корреляция Спирмена помогает найти «монотонную взаимосвязь» между переменными.
В большинстве случаев предпочтительна корреляция Пирсона. однако мне нравится тестировать и Пирсона, и Спирмена. Если результаты теста Спирмена больше, чем результаты теста Пирсона, это показывает, что переменные показывают более монотонную взаимосвязь, чем линейную взаимосвязь.
- Тест хи-квадрат:
→ тест хи-квадрат используется для категориальных функций в наборе данных.
→ Мы вычисляем хи-квадрат между каждой характеристикой и целью и выбираем желаемое количество функций с лучшими показателями хи-квадрат.
→ Он определяет, будет ли связь между двумя категориальными переменными выборки отражать их реальное объединение в популяции.
- Anova:
→ Дисперсионный анализ - это статистический метод, используемый для проверки средних значений двух или более групп, которые значительно отличаются друг от друга. Предполагается, что Гипотеза выглядит как
* Null: Средние значения всех групп равны.
* Альтернативно: По крайней мере, одно среднее значение групп различно.
→ Он проверяет влияние одного или нескольких факторов, сравнивая средние значения разных образцов.
→ Anova и T-тест в основном работают одинаково, когда проводятся только на двух образцах, однако, если более двух образцов Если сравнивать, то используется Anova, так как использование T-теста будет иметь комбинированный эффект на частоту ошибок.
→ Выполнение T-теста на более чем двух образцах даст примерно 15% ошибок, тогда как использование ANOVA сохранит его всего 5% для 95% доверительного интервала.
Доверительный интервал - это диапазон, в котором находится статистика выборки.
- Фактор инфляции дисперсии (VIF):
→ Коэффициент инфляции дисперсии (VIF) обеспечивает меру мультиколлинеарности между независимыми переменными в модели множественной регрессии.
→ Обнаружение мультиколлинеарности важно потому что, хотя он не снижает объяснительную силу модели, он снижает статистическую значимость независимых переменных.
→ Большой VIF для независимой переменной указывает на сильно коллинеарную связь с другими переменными, которые следует учитывать или с поправкой на структуру модели и выбор независимых переменных.
→ VIF можно интерпретировать по полученным значениям:
* 1 - показывает неколинеарность
* от 1 до 5 - показывает присутствует некоторая коллинеарность
* ›5 - Присутствует высокая коллинеарность
→ Определяется с помощью значения коэффициента детерминации (R-Squared).
Чем выше R-Squared »Значение больше значение будет ближе к 1.
Здесь 1-R2 также называется допуском.
Существует множество методов фильтрации, которые определяют, какую функцию выбрать. Понимание того, когда использовать то, что приходит с практикой. Однако я предлагаю опробовать различные методы и посмотреть, какие из них лучше всего помогают в выборе функций, не оказывая слишком большого влияния на точность модели.
Выше приведены несколько основных методов, которые следует тщательно изучить, прежде чем переходить к другим методам.
На следующей неделе появится метод WRAPPER METHOD для выбора функций.
ПРИВЕТСТВЕННОГО УЧЕНИЯ !!!!
Понравилась моя статья? Обязательно хлопайте мне в ладоши и поделитесь ими, так как это повысит мою уверенность. Кроме того, я публикую новые статьи каждое воскресенье, так что оставайтесь на связи, чтобы быть на связи в будущих статьях из серии статей по основам науки о данных и машинного обучения.
Также, если хочешь, то свяжись со мной на connectedIn.