Основы дерева решений

Дерево решений — это метод контролируемого обучения, который можно использовать как для задач классификации, так и для задач регрессии, но в основном он предпочтительнее для решения задач классификации. Деревья решений обычно имитируют способность человека мыслить при принятии решения, поэтому их легко понять. Дерево решений просто задает вопрос и в зависимости от ответа (Да/Нет) далее разбивает дерево на поддеревья. В дереве решений есть два узла: узел решения и конечный узел. Узлы решений используются для принятия решений и имеют несколько ветвей, тогда как конечные узлы являются результатом этих решений и не содержат никаких дополнительных ветвей.

Терминология дерева решений

Корневой узел. Корневой узел — это место, откуда начинается дерево решений. Он представляет собой весь набор данных, разделенный на два или более однородных набора.
Листовой узел. Листовые узлы являются конечным выходным узлом, и после получения конечного узла дерево не может быть отделено дальше.
Разделение. Разделение — это процесс разделения узла принятия решений/корневого узла на подузлы в соответствии с заданными условиями.
Ветвь/поддерево: дерево, сформированное путем разделения дерева.
Обрезка. Обрезка — это процесс удаления ненужных ветвей из дерева.
Родительский/дочерний узел: корневой узел дерева является родительским узлом, а остальные узлы являются дочерними узлами.

Этапы построения дерева решений

Шаг 1. Начните дерево с корневого узла, говорит С, содержащего полный набор данных.
Шаг 2. Найдите лучший атрибут в наборе данных с помощью показателя выбора атрибута (ASM).
Шаг 3. Разделите S на подмножества, содержащие возможные значения для лучших атрибутов.
Шаг 4. Создайте узел дерева решений, содержащий лучший атрибут.
Шаг 5. Рекурсивно создайте новые деревья решений, используя подмножества набора данных, созданного на шаге 3. Продолжайте этот процесс до тех пор, пока вы не сможете дополнительно классифицировать узлы и называть последний узел конечным узлом, пока не будет достигнута стадия.

Показатели выбора атрибутов

При реализации дерева решений основной проблемой является выбор наилучшего атрибута для корневого узла и подузлов. Итак, для решения таких задач существует методика, называемая мерой выбора атрибутов или ASM. Мы можем легко выбрать лучший атрибут для узлов дерева по этому измерению. Есть два популярных метода для ASM, а именно:

Получение информации
Индекс Джини

Получение информации:

Прирост информации — это измерение изменений энтропии после сегментации набора данных на основе атрибута.
Он вычисляет, сколько информации предоставляет нам функция о классе.
Мы разделили узел и построили дерево решений в соответствии со значением прироста информации.
Алгоритм дерева решений всегда пытается максимизировать значение прироста информации, и узел/атрибут, имеющий наибольший прирост информации, разделяется первым. Его можно рассчитать по следующей формуле:

Прирост информации = энтропия (S) - [(взвешенное среднее) * энтропия (каждая функция)]

Энтропия:

Энтропия — это метрика для измерения примеси в данном атрибуте. Он определяет случайность данных. Энтропию можно рассчитать как:

Энтропия(ы)= -P(да)log2 P(да)- P(нет) log2 P(нет)

S = общее количество образцов
P(да) = вероятность да
P(нет) = вероятность нет

Индекс Джини:

Индекс Джини измеряет примеси или чистоту, используемые при создании дерева решений в алгоритме CART (Дерево классификации и регрессии). Атрибут с низким индексом Джини следует предпочесть атрибуту с высоким индексом Джини. Он создает только двоичные разделения, а алгоритм CART использует индекс Джини для создания двоичных разделений. Индекс Джини можно рассчитать по следующей формуле:

Индекс Джини = 1- ∑jPj2

Обрезка: получение оптимального дерева решений

Обрезка удаляет ненужные узлы из дерева, чтобы получить оптимальное дерево решений. Слишком большое дерево увеличивает риск переобучения, а маленькое дерево может не отражать все основные характеристики набора данных. Поэтому метод, который уменьшает размер дерева обучения без снижения точности, известен как сокращение. В основном используются два типа технологии обрезки деревьев:

Сокращение сложности затрат
Сокращение числа ошибок.

Преимущества дерева решений

Это просто понять, поскольку он следует тому же процессу, что и человек, принимая любое решение в реальной жизни.
Это может быть полезно для решения проблем, связанных с принятием решений.
Это помогает думать обо всех возможных исходах проблемы.
Требуется меньше очистки данных по сравнению с другими алгоритмами.

Недостатки дерева решений

Дерево решений содержит много слоев, что делает его сложным.
У него может быть проблема переобучения, которую можно решить с помощью алгоритма Random Forest.
Для большего количества меток классов может увеличиться вычислительная сложность дерева решений.