Дерево решений - это алгоритм решения проблем как классификации, так и регрессии.

для классификации следуйте этим блогам 1, 2.

для дерева решений регрессии работает иначе, чем классификация. в классификации дерево решений разделения будет определяться энтропией или Джини. в регрессии разделение будет определяться среднеквадратичной ошибкой, средней абсолютной ошибкой, friedman_mse, poisson.

чтобы погрузиться в алгоритм, сначала давайте узнаем две вещи.

  1. Стандартное отклонение для одного атрибута или признака.

  • Подсчитайте n (общее количество строк или значений в этих данных или функции)
  • Среднее (X_bar)
  • Стандартное отклонение)
  • Коэффициент вариации (CV)

Стандартное отклонение для построения дерева (ветвления).

Коэффициент вариации (CV) используется для принятия решения о прекращении ветвления. мы также можем использовать count.

Среднее — это значение в листовых узлах.

2. Стандартное отклонение для двух атрибутов (цель и предиктор):

Уменьшение стандартного отклонения

уменьшение стандартного отклонения основано на уменьшении стандартного отклонения после разделения набора данных по атрибуту.

построение дерева решений сводится к поиску атрибута, который дает наибольшее уменьшение стандартного отклонения.

Спасибо, что читаете этот блог :)