Дерева решений!

Он строит регрессию или классификацию в виде древовидной структуры. Набор данных разбивается на более мелкие подмножества, пока разрабатываются деревья решений. Конечным результатом является дерево с узлами решений и листовыми узлами. Он может обрабатывать как числовые, так и категориальные данные.

Пример:

Последовательность событий образует древовидную структуру для принятия решения.

Внимание по терминологии!!!

  1. Узел принятия решения (Root Node) — он находится на вершине дерева, также называемого родительским узлом.
  2. Листовой узел — окончание дерева решений.

Теперь мы знаем, что его можно использовать как для регрессии, так и для классификации.

Когда использовать дерево регрессии?

Для непрерывных количественных целевых переменных, таких как прогнозирование количества осадков и доходов.

Когда использовать дерево классификации?

Для дискретных категориальных целевых переменных. Например, предсказание «ожирение» или «не ожирение», «выигрыш» или «проигрыш».

Как построить деревья регрессии?

  1. Уменьшение стандартного отклонения — Если независимые переменные являются категориальными
  2. Остаточная ошибка суммы квадратов Если независимые переменные являются числовыми

Стандартное отклонение:

Проще говоря, это дисперсия набора значений или количество вариаций.

Дерево решений строится сверху вниз от корневого узла и включает в себя разделение данных на подмножества, содержащие экземпляры с похожими значениями (однородными).

Обычно мы используем стандартное отклонение для расчета однородности числовой выборки. Если образец полностью однороден, его стандартное отклонение равно нулю.

Вычисление стандартного отклонения для одного атрибута:

Почему мы рассчитываем стандартное отклонение?

  • Используется для построения дерева (ветвления)
  • коэффициент вариации используется, чтобы решить, когда остановить ветвление и
  • Среднее — это значение в листовых узлах.

Вычисление стандартного отклонения для двух атрибутов (целевого и предиктора):

где T-цель, X-предиктор и ‘c’ — категориальные значения в независимой переменной. Например,

Пусть предсказателем будет Outlook. В котором есть три категориальных данных: «пасмурно», «дождливо» и «солнечно». А затем рассчитывается стандартное отклонение каждого показателя, чтобы сказать, сколько часов они могут играть в таких климатических условиях.

Уменьшение стандартного отклонения:

Уменьшение стандартного отклонения основано на уменьшении стандартного отклонения после разделения набора данных по атрибуту в деревьях. Построение дерева решений заключается в поиске атрибута, который дает наибольшее снижение стандартного отклонения. Проще говоря, атрибут, который имеет наибольшее снижение стандартного отклонения, является корневым узлом.

Шаг 1: мы получили стандартное отклонение 9,32 из рисунка 4.

Шаг 2. Затем набор данных разделяется на разные атрибуты из набора данных. Стандартное отклонение для каждой ветви рассчитывается с учетом каждого независимого атрибута в качестве корневого узла. Полученное стандартное отклонение вычитается из стандартного отклонения перед разделением. Результатом является уменьшение стандартного отклонения.

SDR(T,X)=S(T)-S(T,X) — (стандартное значение до разделения минус стандартное значение после разделения)

Шаг 3. Мы видим, что наибольшее снижение стандартного отклонения относится к атрибуту прогноза. Поэтому он действует как корневой узел в нашем дереве решений.

Шаг 4. Затем мы проверяем другие переменные: Температура, Влажность и Ветер. который будет следующим узлом решения?

На практике нам нужны некоторые критерии завершения. Например, когда коэффициент отклонения (CV) для ветви становится меньше определенного порога (например, 10%) и когда в ветви остается слишком мало экземпляров (n) (например, 3), мы не можем ее дальше разделить.

В случае пасмурной погоды коэффициент вариации равен 8 %, что меньше порогового значения в 10 %. Следовательно, его нельзя разделить дальше, и среднее значение подмножества Overcast становится конечным узлом, т. е. 46,3.

В Солнечном у нас CV составляет 28% (из рисунка 8). Это означает, что его можно разделить. Каким будет следующий узел? уменьшение стандартного отклонения рассчитывается снова.

У нас наибольшее снижение стандартного отклонения для «Ветреного» — 7,62. Он будет считаться следующим узлом принятия решения.

Windy делится на категориальные значения True и Flase. Из рисунка 12 мы можем сказать, что количество ложных значений равно 3, а количество истинных значений равно 2. Оба они не превышают порогового значения количества. поэтому дальнейшее разбиение не выполняется, и средние значения являются листовыми узлами.

У нас есть CV 22% для «Дождливой», что означает, что мы можем разделить его дальше. Таким образом, мы вычисляем уменьшение стандартного отклонения. Из рисунка 13 видно, что Temp имеет наибольшее значение и становится следующим узлом принятия решения. В temp у нас есть три значения (Hot, Cold и Mild). Давайте проверим количество каждого значения.

Из рисунка 14 видно, что все три значения имеют счетчики меньше порогового значения счетчика. Средние значения даны как листовые узлы.

Теперь у нас сформировалось дерево решений, из которого мы можем принимать решения. Например, мы можем сказать, что при солнечной и безветренной погоде мы можем играть 47,7 часов. Если погода дождливая, а температура жаркая, мы можем играть 27,5 часов.