ВВЕДЕНИЕ

Дерево решений — это алгоритм машинного обучения, который должен иметь возможность работать как с категориальными, так и с непрерывными данными, которые можно использовать для прогнозирования значений регрессии и классификации. Это бинарное дерево с корневым узлом и листовыми узлами. Дерево начинается с корневого узла и перемещается вниз по дереву на основе условия if-else. Существуют различные алгоритмы, используемые для разработки дерева решений, а именно.
а. КОРЗИНА
б. ID 3
c. ЧАЙД
d. ID 4.5
Основными параметрами, играющими важную роль при построении дерева, являются Энтропия и Индекс Джини. Энтропия описывает количество информации, необходимой для точного описания данных. Итак, если данные однородны, то энтропия равна 0 (то есть чистая), в противном случае, если элементы разделены поровну, энтропия приближается к 1 (то есть нечистая).

Индекс Джини со значением 0 означает, что образцы абсолютно однородны, индекс Джини со значением 1 означает максимальное неравенство между элементами. Это сумма квадратов вероятностей каждого класса.

ОПИСАНИЕ ДАННЫХ

Чтобы проиллюстрировать применение логистической регрессии, рассматривается набор данных SUV. Набор данных состоит из 5 столбцов и 400 строк, выше приведены названия столбцов и их описание.

Ссылка на набор данных: https://www.kaggle.com/datasets/iamaniket/suv-data

ЭКСПЕРИМЕНТ

Цель состоит в том, чтобы определить, какая категория людей будет покупать внедорожник или нет. Мы выполнили первоначальный анализ данных путем сканирования нулевых значений, но ничего не нашли. Чтобы понять, существует ли мультиколлинеарность, разрабатывается корреляционная матрица: «Возраст» и «Расчетная зарплата» имеют хорошую корреляцию с нашей целевой переменной «Куплено», поэтому они рассматриваются как функции для прогнозирования.

Кроме того, набор данных разделен на целевую переменную Y (Куплено) и характеристики X (Возраст и расчетная зарплата), а также на обучающие (75%) и тестовые (25%) наборы.

Затем модель настраивается для обучения на наборе данных, и можно делать прогнозы. Поскольку точность не является подходящей метрикой для оценки модели, мы используем отчет о классификации и матрицу путаницы.

Из матрицы путаницы мы можем понять, что модель 61 раз предсказывала истинно положительные значения и 29 раз предсказывала истинно отрицательные значения. Точность можно рассчитать следующим образом:

TP = 61, FP = 7, FN = 3 и TN = 29

Точность = (TP+TN) / (TP + FP + FN + TN) = (61+29) / (61+7+3+20) = 90/100 = 90%

Отчет о классификации может быть создан на основе матрицы путаницы. Мы внимательно отмечаем, что модель проделала большую работу по прогнозированию, которая составляет 88% (точность), и модель правильно классифицировала положительные значения, что составляет 90% (отзыв).

Точечная диаграмма объяснила бы нам, насколько хорошо работает модель. Модель смогла правильно классифицировать желтые и зеленые точки. Границы строятся на основе уровней дерева. Чем больше уровней, тем больше границ решений создается, процесс увеличения глубины дерева называется предварительной обрезкой, и он помогает избежать чрезмерной подгонки набора данных.

Графики показывают производительность модели набора данных на уровне 4, на котором модель смогла идеально классифицировать класс «0» и класс «1» с несколькими неправильными интерпретациями или неправильными прогнозами.

Сравнивая результаты с использованием энтропии и индекса Джини в качестве критерия для построения дерева, кажется, что оба дают одинаковые результаты.

Из древовидного графика мы можем сделать вывод, что разделение основано на индексе Джини и значении энтропии, то есть меньшие значения идут слева, а более высокие значения справа. На графике также показано, сколько выборок осталось в каждом разделении. Поскольку дерево предварительно обрезается, глубина регулируется до четырех.

ИСПОЛЬЗОВАННАЯ ЛИТЕРАТУРА

https://ankitnitjsr13.medium.com/decision-tree-algorithm-id3-d512db495c90



КОД

https://github.com/sai2499/Дерево решений