Машинное обучение: классификация дерева решений

Большинство из нас считают дерево решений сложным, но это один из самых мощных методов машинного обучения. Его легко реализовать, и он относится к методам контролируемого обучения. Как следует из названия, это дерево, но без настоящих корней и зеленых листьев. Это дерево строится путем выполнения различных условий, образующих корень, называемый головным узлом, и листья, называемые конечными листьями, в результате чего данные разбиваются на небольшие сегменты.

Дерево решений:

Дерево решений строит классификационные или регрессионные модели в виде древовидной структуры. Это техника контролируемого обучения. Есть два типа дерева решений:

Дерево классификации.

Дерево регрессии.

Дерево решений построено с использованием рекурсивного порционирования. Этот подход также называется «разделяй и властвуй». Он разбивает набор данных на все меньшие и меньшие подмножества, в то же время постепенно разрабатывается соответствующее дерево решений.

Дерево решений представляет собой блок-схему:

Описание структуры классификации дерева решений:

i) Это блок-схема, подобная древовидной структуре.

ii) Внутренние узлы представляют функции.

iii) Ветвь представляет правило принятия решения.

iv) Самый верхний узел называется корневым узлом.

v) Конечные узлы представляют окончательное решение или результат в двоичном (0, 1), описывающем 0, если событие не происходит, и 1, если событие происходит.

Эта окончательная структура помогает в принятии решений.

Но первое, что приходит нам в голову, это то, как происходит формирование дерева и как на самом деле следует процедура?

Итак, давайте поговорим об алгоритме дерева решений.

Теперь давайте подробно обсудим каждый шаг выбора функции:-

Получение информации: –

Прирост информации — это уменьшение энтропии. Прирост информации вычисляет разницу между энтропией до разделения и средней энтропией после разделения набора данных на основе заданных значений атрибутов.

Математическая реализация-

Где Pi — вероятность того, что произвольный кортеж в D принадлежит классу Ci.

Атрибут A с наибольшим приростом информации, Gain(A), выбирается в качестве атрибута разделения в узле N().

Коэффициент усиления-

Получение информации смещено для атрибута со многими результатами. Это означает, что он предпочитает атрибут с большим количеством различных значений.

Атрибут с наибольшим коэффициентом усиления выбирается в качестве атрибута разделения.

Индекс Джини-

Индекс Джини учитывает двоичное разделение для каждого атрибута. Вы можете вычислить взвешенную сумму примеси каждого раздела. Если двоичное разделение по атрибуту A разбивает данные D на D1 и D2, индекс Джини для D равен:

Где pi — вероятность того, что кортеж в D принадлежит классу Ci.

Атрибут с минимальным индексом Джини выбирается в качестве атрибута разделения.

Давайте рассмотрим один пример –

Вывод-

Деревья решений легко интерпретировать и визуализировать. Он может легко захватывать нелинейные шаблоны. Но чувствителен к зашумленным данным. Он может переобучать зашумленные данные. Деревья решений смещены из-за дисбаланса набора данных, поэтому рекомендуется сбалансировать набор данных перед созданием дерева решений. Небольшая вариация (или дисперсия) данных может привести к другому дереву решений. Это можно уменьшить с помощью алгоритмов упаковки и повышения.

Спасибо, что уделили свое драгоценное время чтению этого блога!!!

Машинное обучение: классификация дерева решений

Вопросы по теме