Дерево решений - это алгоритм решения проблем как классификации, так и регрессии.
для классификации следуйте этим блогам 1, 2.
для дерева решений регрессии работает иначе, чем классификация. в классификации дерево решений разделения будет определяться энтропией или Джини. в регрессии разделение будет определяться среднеквадратичной ошибкой, средней абсолютной ошибкой, friedman_mse, poisson.
чтобы погрузиться в алгоритм, сначала давайте узнаем две вещи.
- Стандартное отклонение для одного атрибута или признака.
- Подсчитайте n (общее количество строк или значений в этих данных или функции)
- Среднее (X_bar)
- Стандартное отклонение)
- Коэффициент вариации (CV)
Стандартное отклонение для построения дерева (ветвления).
Коэффициент вариации (CV) используется для принятия решения о прекращении ветвления. мы также можем использовать count.
Среднее — это значение в листовых узлах.
2. Стандартное отклонение для двух атрибутов (цель и предиктор):
Уменьшение стандартного отклонения
уменьшение стандартного отклонения основано на уменьшении стандартного отклонения после разделения набора данных по атрибуту.
построение дерева решений сводится к поиску атрибута, который дает наибольшее уменьшение стандартного отклонения.
Спасибо, что читаете этот блог :)