Построение дерева решений и применение гипернастройки для повышения соответствия модели
Деревья решений имитируют принятие решений человеком, точно так же, как человек, дерево решений периодически проверяет определенные параметры, пока мы не получим достаточное количество результатов (+ve или -ve), подтверждающих нас для принятия конкретных решений.
Возьмем пример: создадим машину для принятия решений для оценки средней цены ноутбука для машинного обучения.
набор данных (kaggle) содержит 12 переменных, как показано в таблице данных.
Вы также можете собирать данные из Интернета напрямую, мой блог о веб-краулерах был бы хорошим местом для начала.
Работа с деревом решений-
- Он просматривает все предикторы и выбирает тот, который больше всего уменьшит остаточные ошибки теста.
- Затем он разделил данные на 2 части на основе вышеуказанного условия.
- В дереве решений используется жадный подход сверху вниз, известный как алгоритм рекурсивного двоичного разбиения.
- Он начинает расщепление с вершины, которая является 1 конечным узлом, и называется жадным, так как на каждом уровне его расщепление на настоящее оптимальное, а не на оптимальное расщепление в будущем.
- По мере того, как дерево становится плотным, дисперсия увеличивается, но смещение уменьшается очень незначительно, что приводит к увеличению общей ошибки теста (ошибки прогноза).
7. После построения плотного дерева выполняется обрезка(вырезание), чтобы уменьшить дисперсию, ограничивая общее количество разбиений в дереве.
параметр lamda = общее количество разбиений, разрешенных в дереве решений
8 Настройка гиперпараметров.это процесс поиска оптимального значения параметра лямбда для получения наименьшего количества ошибок теста. В случае дерева решений мы можем найти оптимальное значение Lambda(splits) с помощью K-кратной перекрестной проверки.
график над ошибкой теста и гиперпараметром Lamda дает нам оптимальное значение lamda = 3, поскольку ошибка минимальна при 3
Я хотел бы добавить, что прогнозируемое значение в Дереве регрессии может быть рассчитано путем наблюдения, под каким конечным узлом оно классифицируется. В случае Дерева классификации, Geni-индекс и энтропия используются для разделения данных по узлам.
В следующем разделе мы построим дерево решений в R, используя данные, полученные от kaggle, и применим тест k-кратной проверки для гипернастройки дерева.
здесь я использовал цифры из книги «Введение в статистическое обучение» (ISLR).