Если вам приходится иметь дело с анализом больших данных, машинное обучение с интеллектуальной программой обучения — лучший способ. Многие компьютерные программы основаны на машинном обучении, и для применения данных предусмотрено множество функций с визуализацией и функциональной моделью. Таким образом, машинное обучение — это известная тема, на которой сосредотачивается большинство аналитиков данных, в том числе и я. Обратитесь к моему предыдущему основному проекту, мне пришлось проанализировать много данных, которые имели 145 столбцов и более 100 000 строк с низкопроизводительным ноутбуком. Итак, я провел более 12 часов. для первой модели поиска по сетке. Более того, компьютер приходилось запускать снова и снова, если я допускал какие-то ошибки. Это было неудобство для проб и ошибок при кодировании. Чтобы повысить эффективность кодирования и снизить нагрузку на вычисления сложной задачи, хорошим решением в этой ситуации будет выбор признаков.

Выбор признаков — это процесс выбора релевантных и полезных переменных для прогнозируемой модели. Основными преимуществами выбора признаков являются повышение точности модели, помощь в уменьшении переобучения модели прогнозирования и экономия времени в процессе обучения.

В этой статье я покажу три метода техники разделов функций, которые можно использовать в программировании на R.

Во-первых, я использую набор данных о жилье в Бостоне из баз данных машинного обучения UCI [1]. Имеется 14 столбцов и 506 строк, информация об атрибутах и ​​образцы данных показаны ниже.

  1. Значение переменной с помощью rpart

Деревья рекурсивного разбиения и регрессии или rpart — это метод, который использует функцию обучения для определения взаимосвязи между X и Y с помощью древовидного алгоритма.

Пакет для этого метода — пакет Caret. Переменная Y — это MEDV, а переменные X — все данные о жилье, кроме MEDV. Цель этого метода — определить функции, которые больше всего связаны с Y. Функция train() используется для создания модели и обучения всех переменных. Переменные X ранжируются на основе признаков важности с помощью функции varImp().

Как показано выше, только 7 функций, а именно «LSTAT», «NOX», «PTRATIO», «RM», «INDUS», «CRIM» и «AGE», относятся к модели rpart.

2. Функция важности модели RandomForest

RandomForest или RF — это алгоритм леса для классификации и регрессионной модели. Группа данных будет случайной и будет обучаться, чтобы получить наилучший результат. Результат RF можно использовать для прогнозирования будущей тенденции.

Пакет для этого метода — пакет randomForest. Для Y и X я использую его так же, как и предыдущий метод. Функция randomForest() используется для создания модели и обучения всех переменных. Затем я использую функцию Important () пакета randomForest для ранжирования признаков важности.

В результате 7 основных функций, а именно «RM», «LSTAT», «PTRATIO», «CRIM», «NOX», «DIS» и «INDUS», относятся к модели RandomForest Model.

3. Относительная важность в модели линейной регрессии

Линейная регрессия — это линейный подход к представлению взаимосвязи между независимыми переменными X и зависимой переменной y. Каждая независимая переменная имеет внутренний продукт, включая индивидуальную бета-версию, как показано в уравнении ниже, поэтому эту бета-версию можно использовать для определения важных характеристик.

Метод требует пакета relaimpo. MEDV используется как зависимая переменная (y), а другие переменные используются как независимые переменные (X). Линейная формула создается суммой всех независимых переменных. Линейная функция — это lm() для обучения данных по формуле. Затем функция calc.relimp() из пакета renalmpo используется для определения важных функций.

В результате 7 основных функций, а именно «LSTAT», «RM», «PTRATIO», «INDUS», «TAX», «NOX» и «DIS», имеют отношение к модели с помощью модели линейной регрессии.

Сводка

Каждый метод может иметь разные результаты, это зависит от модели обучения и алгоритма. Однако после того, как вы получите все важные функции, вы можете использовать эти функции для создания модели для прогнозирования тренда и другого анализа. Таким образом, эти три метода могут решить неудобства, связанные с несколькими функциями данных, а также могут помочь вам в случае вашего компьютера с низкой производительностью.

Справочник

1. Источник: https://www.kaggle.com/heptapod/uci-ml-datasets