Дерево решений — это метод контролируемого обучения, который можно использовать как для задач классификации, так и для задач регрессии, но в основном он предпочтительнее для решения задач классификации. Деревья решений обычно имитируют способность человека мыслить при принятии решения, поэтому их легко понять. Дерево решений просто задает вопрос и в зависимости от ответа (Да/Нет) далее разбивает дерево на поддеревья. В дереве решений есть два узла: узел решения и конечный узел. Узлы решений используются для принятия решений и имеют несколько ветвей, тогда как конечные узлы являются результатом этих решений и не содержат никаких дополнительных ветвей.

Терминология дерева решений

  • Корневой узел. Корневой узел — это место, откуда начинается дерево решений. Он представляет собой весь набор данных, разделенный на два или более однородных набора.
  • Листовой узел. Листовые узлы являются конечным выходным узлом, и после получения конечного узла дерево не может быть отделено дальше.
  • Разделение. Разделение — это процесс разделения узла принятия решений/корневого узла на подузлы в соответствии с заданными условиями.
  • Ветвь/поддерево: дерево, сформированное путем разделения дерева.
  • Обрезка. Обрезка — это процесс удаления ненужных ветвей из дерева.
  • Родительский/дочерний узел: корневой узел дерева является родительским узлом, а остальные узлы являются дочерними узлами.

Этапы построения дерева решений

  • Шаг 1. Начните дерево с корневого узла, говорит С, содержащего полный набор данных.
  • Шаг 2. Найдите лучший атрибут в наборе данных с помощью показателя выбора атрибута (ASM).
  • Шаг 3. Разделите S на подмножества, содержащие возможные значения для лучших атрибутов.
  • Шаг 4. Создайте узел дерева решений, содержащий лучший атрибут.
  • Шаг 5. Рекурсивно создайте новые деревья решений, используя подмножества набора данных, созданного на шаге 3. Продолжайте этот процесс до тех пор, пока вы не сможете дополнительно классифицировать узлы и называть последний узел конечным узлом, пока не будет достигнута стадия.

Показатели выбора атрибутов

При реализации дерева решений основной проблемой является выбор наилучшего атрибута для корневого узла и подузлов. Итак, для решения таких задач существует методика, называемая мерой выбора атрибутов или ASM. Мы можем легко выбрать лучший атрибут для узлов дерева по этому измерению. Есть два популярных метода для ASM, а именно:

  • Получение информации
  • Индекс Джини

Получение информации:

  • Прирост информации — это измерение изменений энтропии после сегментации набора данных на основе атрибута.
  • Он вычисляет, сколько информации предоставляет нам функция о классе.
  • Мы разделили узел и построили дерево решений в соответствии со значением прироста информации.
  • Алгоритм дерева решений всегда пытается максимизировать значение прироста информации, и узел/атрибут, имеющий наибольший прирост информации, разделяется первым. Его можно рассчитать по следующей формуле:

Прирост информации = энтропия (S) - [(взвешенное среднее) * энтропия (каждая функция)]

Энтропия:

Энтропия — это метрика для измерения примеси в данном атрибуте. Он определяет случайность данных. Энтропию можно рассчитать как:

Энтропия(ы)= -P(да)log2 P(да)- P(нет) log2 P(нет)

  • S = общее количество образцов
  • P(да) = вероятность да
  • P(нет) = вероятность нет

Индекс Джини:

Индекс Джини измеряет примеси или чистоту, используемые при создании дерева решений в алгоритме CART (Дерево классификации и регрессии). Атрибут с низким индексом Джини следует предпочесть атрибуту с высоким индексом Джини. Он создает только двоичные разделения, а алгоритм CART использует индекс Джини для создания двоичных разделений. Индекс Джини можно рассчитать по следующей формуле:

Индекс Джини = 1- ∑jPj2

Обрезка: получение оптимального дерева решений

Обрезка удаляет ненужные узлы из дерева, чтобы получить оптимальное дерево решений. Слишком большое дерево увеличивает риск переобучения, а маленькое дерево может не отражать все основные характеристики набора данных. Поэтому метод, который уменьшает размер дерева обучения без снижения точности, известен как сокращение. В основном используются два типа технологии обрезки деревьев:

  • Сокращение сложности затрат
  • Сокращение числа ошибок.

Преимущества дерева решений

  • Это просто понять, поскольку он следует тому же процессу, что и человек, принимая любое решение в реальной жизни.
  • Это может быть полезно для решения проблем, связанных с принятием решений.
  • Это помогает думать обо всех возможных исходах проблемы.
  • Требуется меньше очистки данных по сравнению с другими алгоритмами.

Недостатки дерева решений

  • Дерево решений содержит много слоев, что делает его сложным.
  • У него может быть проблема переобучения, которую можно решить с помощью алгоритма Random Forest.
  • Для большего количества меток классов может увеличиться вычислительная сложность дерева решений.