Здравствуйте, читатели! Здесь мы должны понять, как алгоритм дерева решений работает в задачах, основанных на регрессии, и какая математическая реализация используется для прогнозирования непрерывных значений. Но прежде чем читать этот блог, ознакомьтесь с приведенной ниже ссылкой, чтобы понять, что такое дерево решений и как оно работает.



Регрессия дерева решений

Регрессия по дереву решений — это концепция, реализующая алгоритм дерева решений по непрерывным данным для прогнозирования будущего. Этот тип регрессионного анализа выполняется для данных, которые являются нелинейно разделимыми, то есть прямая линия регрессии не может быть реализована для прогнозирования.

Внутренняя концепция регрессии дерева решений в точности аналогична концепции классификации, т. е. модель продолжает группировать данные на основе определенных функций через иерархию древовидной структуры. Теперь, поскольку проблема регрессии не содержит категориальных значений, дерево решений работает, группируя данные в непрерывные группы до определенного предела.

Например, давайте возьмем в качестве примера набор данных о заработной плате сотрудников в компании на основе их опыта и процента бонусов. Теперь давайте посмотрим, как работает дерево решений в этой задаче о получении зарплаты.

На приведенной выше диаграмме на нулевом уровне признак деления принимается за опыт. Так как признак является непрерывной величиной (опыт может быть 0,0,2….3,5,3,6….6,1,6,9…), то дерево автоматически делит данные на три части или три диапазона. На уровне 1 особенностью деления является бонусный %, который также является постоянной величиной. Итак, дерево решений делит его на 2 диапазона и обучается.

Теперь всякий раз, когда появляются новые данные для прогнозирования зарплаты сотрудника, среднее значение всех значений в конечном узле берется в качестве окончательного вывода или прогноза. Это работа регрессии дерева решений.

Математическая концепция

Теперь вы можете подумать, как дерево решений знает, какой признак использовать в качестве признака деления на уровне. Точно так же, как примеси Джини или прирост информации используются в задачах классификации, регрессия дерева решений использует математическую концепцию под названием Уменьшение дисперсии.

Уменьшение дисперсии = дисперсия (T, X) - дисперсия (T)

Здесь Variance(T) относится к дисперсии значений в родительском узле, а Variance(T,X) относится к дисперсии значений в дочерних узлах.

Для признака, который будет выбран в качестве признака разделения на определенном уровне, Сокращение дисперсии должно быть самым высоким.

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

Это все об этом блоге. Надеюсь, это было информативно для вас!!