Построение дерева решений и применение гипернастройки для повышения соответствия модели

Деревья решений имитируют принятие решений человеком, точно так же, как человек, дерево решений периодически проверяет определенные параметры, пока мы не получим достаточное количество результатов (+ve или -ve), подтверждающих нас для принятия конкретных решений.

Возьмем пример: создадим машину для принятия решений для оценки средней цены ноутбука для машинного обучения.

набор данных (kaggle) содержит 12 переменных, как показано в таблице данных.

Вы также можете собирать данные из Интернета напрямую, мой блог о веб-краулерах был бы хорошим местом для начала.

Работа с деревом решений-

  1. Он просматривает все предикторы и выбирает тот, который больше всего уменьшит остаточные ошибки теста.
  2. Затем он разделил данные на 2 части на основе вышеуказанного условия.
  3. В дереве решений используется жадный подход сверху вниз, известный как алгоритм рекурсивного двоичного разбиения.
  4. Он начинает расщепление с вершины, которая является 1 конечным узлом, и называется жадным, так как на каждом уровне его расщепление на настоящее оптимальное, а не на оптимальное расщепление в будущем.
  5. По мере того, как дерево становится плотным, дисперсия увеличивается, но смещение уменьшается очень незначительно, что приводит к увеличению общей ошибки теста (ошибки прогноза).

7. После построения плотного дерева выполняется обрезка(вырезание), чтобы уменьшить дисперсию, ограничивая общее количество разбиений в дереве.

параметр lamda = общее количество разбиений, разрешенных в дереве решений

8 Настройка гиперпараметров.это процесс поиска оптимального значения параметра лямбда для получения наименьшего количества ошибок теста. В случае дерева решений мы можем найти оптимальное значение Lambda(splits) с помощью K-кратной перекрестной проверки.

график над ошибкой теста и гиперпараметром Lamda дает нам оптимальное значение lamda = 3, поскольку ошибка минимальна при 3

Я хотел бы добавить, что прогнозируемое значение в Дереве регрессии может быть рассчитано путем наблюдения, под каким конечным узлом оно классифицируется. В случае Дерева классификации, Geni-индекс и энтропия используются для разделения данных по узлам.

В следующем разделе мы построим дерево решений в R, используя данные, полученные от kaggle, и применим тест k-кратной проверки для гипернастройки дерева.

здесь я использовал цифры из книги «Введение в статистическое обучение» (ISLR).