Дерево решений — это метод контролируемого обучения, который можно использовать как для задач классификации, так и для задач регрессии, но в основном он предпочтительнее для решения задач классификации. Деревья решений обычно имитируют способность человека мыслить при принятии решения, поэтому их легко понять. Дерево решений просто задает вопрос и в зависимости от ответа (Да/Нет) далее разбивает дерево на поддеревья. В дереве решений есть два узла: узел решения и конечный узел. Узлы решений используются для принятия решений и имеют несколько ветвей, тогда как конечные узлы являются результатом этих решений и не содержат никаких дополнительных ветвей.
Терминология дерева решений
- Корневой узел. Корневой узел — это место, откуда начинается дерево решений. Он представляет собой весь набор данных, разделенный на два или более однородных набора.
- Листовой узел. Листовые узлы являются конечным выходным узлом, и после получения конечного узла дерево не может быть отделено дальше.
- Разделение. Разделение — это процесс разделения узла принятия решений/корневого узла на подузлы в соответствии с заданными условиями.
- Ветвь/поддерево: дерево, сформированное путем разделения дерева.
- Обрезка. Обрезка — это процесс удаления ненужных ветвей из дерева.
- Родительский/дочерний узел: корневой узел дерева является родительским узлом, а остальные узлы являются дочерними узлами.
Этапы построения дерева решений
- Шаг 1. Начните дерево с корневого узла, говорит С, содержащего полный набор данных.
- Шаг 2. Найдите лучший атрибут в наборе данных с помощью показателя выбора атрибута (ASM).
- Шаг 3. Разделите S на подмножества, содержащие возможные значения для лучших атрибутов.
- Шаг 4. Создайте узел дерева решений, содержащий лучший атрибут.
- Шаг 5. Рекурсивно создайте новые деревья решений, используя подмножества набора данных, созданного на шаге 3. Продолжайте этот процесс до тех пор, пока вы не сможете дополнительно классифицировать узлы и называть последний узел конечным узлом, пока не будет достигнута стадия.
Показатели выбора атрибутов
При реализации дерева решений основной проблемой является выбор наилучшего атрибута для корневого узла и подузлов. Итак, для решения таких задач существует методика, называемая мерой выбора атрибутов или ASM. Мы можем легко выбрать лучший атрибут для узлов дерева по этому измерению. Есть два популярных метода для ASM, а именно:
- Получение информации
- Индекс Джини
Получение информации:
- Прирост информации — это измерение изменений энтропии после сегментации набора данных на основе атрибута.
- Он вычисляет, сколько информации предоставляет нам функция о классе.
- Мы разделили узел и построили дерево решений в соответствии со значением прироста информации.
- Алгоритм дерева решений всегда пытается максимизировать значение прироста информации, и узел/атрибут, имеющий наибольший прирост информации, разделяется первым. Его можно рассчитать по следующей формуле:
Прирост информации = энтропия (S) - [(взвешенное среднее) * энтропия (каждая функция)]
Энтропия:
Энтропия — это метрика для измерения примеси в данном атрибуте. Он определяет случайность данных. Энтропию можно рассчитать как:
Энтропия(ы)= -P(да)log2 P(да)- P(нет) log2 P(нет)
- S = общее количество образцов
- P(да) = вероятность да
- P(нет) = вероятность нет
Индекс Джини:
Индекс Джини измеряет примеси или чистоту, используемые при создании дерева решений в алгоритме CART (Дерево классификации и регрессии). Атрибут с низким индексом Джини следует предпочесть атрибуту с высоким индексом Джини. Он создает только двоичные разделения, а алгоритм CART использует индекс Джини для создания двоичных разделений. Индекс Джини можно рассчитать по следующей формуле:
Индекс Джини = 1- ∑jPj2
Обрезка: получение оптимального дерева решений
Обрезка удаляет ненужные узлы из дерева, чтобы получить оптимальное дерево решений. Слишком большое дерево увеличивает риск переобучения, а маленькое дерево может не отражать все основные характеристики набора данных. Поэтому метод, который уменьшает размер дерева обучения без снижения точности, известен как сокращение. В основном используются два типа технологии обрезки деревьев:
- Сокращение сложности затрат
- Сокращение числа ошибок.
Преимущества дерева решений
- Это просто понять, поскольку он следует тому же процессу, что и человек, принимая любое решение в реальной жизни.
- Это может быть полезно для решения проблем, связанных с принятием решений.
- Это помогает думать обо всех возможных исходах проблемы.
- Требуется меньше очистки данных по сравнению с другими алгоритмами.
Недостатки дерева решений
- Дерево решений содержит много слоев, что делает его сложным.
- У него может быть проблема переобучения, которую можно решить с помощью алгоритма Random Forest.
- Для большего количества меток классов может увеличиться вычислительная сложность дерева решений.