Дерева решений!
Он строит регрессию или классификацию в виде древовидной структуры. Набор данных разбивается на более мелкие подмножества, пока разрабатываются деревья решений. Конечным результатом является дерево с узлами решений и листовыми узлами. Он может обрабатывать как числовые, так и категориальные данные.
Пример:
Последовательность событий образует древовидную структуру для принятия решения.
Внимание по терминологии!!!
- Узел принятия решения (Root Node) — он находится на вершине дерева, также называемого родительским узлом.
- Листовой узел — окончание дерева решений.
Теперь мы знаем, что его можно использовать как для регрессии, так и для классификации.
Когда использовать дерево регрессии?
Для непрерывных количественных целевых переменных, таких как прогнозирование количества осадков и доходов.
Когда использовать дерево классификации?
Для дискретных категориальных целевых переменных. Например, предсказание «ожирение» или «не ожирение», «выигрыш» или «проигрыш».
Как построить деревья регрессии?
- Уменьшение стандартного отклонения — Если независимые переменные являются категориальными
- Остаточная ошибка суммы квадратов Если независимые переменные являются числовыми
Стандартное отклонение:
Проще говоря, это дисперсия набора значений или количество вариаций.
Дерево решений строится сверху вниз от корневого узла и включает в себя разделение данных на подмножества, содержащие экземпляры с похожими значениями (однородными).
Обычно мы используем стандартное отклонение для расчета однородности числовой выборки. Если образец полностью однороден, его стандартное отклонение равно нулю.
Вычисление стандартного отклонения для одного атрибута:
Почему мы рассчитываем стандартное отклонение?
- Используется для построения дерева (ветвления)
- коэффициент вариации используется, чтобы решить, когда остановить ветвление и
- Среднее — это значение в листовых узлах.
Вычисление стандартного отклонения для двух атрибутов (целевого и предиктора):
где T-цель, X-предиктор и ‘c’ — категориальные значения в независимой переменной. Например,
Пусть предсказателем будет Outlook. В котором есть три категориальных данных: «пасмурно», «дождливо» и «солнечно». А затем рассчитывается стандартное отклонение каждого показателя, чтобы сказать, сколько часов они могут играть в таких климатических условиях.
Уменьшение стандартного отклонения:
Уменьшение стандартного отклонения основано на уменьшении стандартного отклонения после разделения набора данных по атрибуту в деревьях. Построение дерева решений заключается в поиске атрибута, который дает наибольшее снижение стандартного отклонения. Проще говоря, атрибут, который имеет наибольшее снижение стандартного отклонения, является корневым узлом.
Шаг 1: мы получили стандартное отклонение 9,32 из рисунка 4.
Шаг 2. Затем набор данных разделяется на разные атрибуты из набора данных. Стандартное отклонение для каждой ветви рассчитывается с учетом каждого независимого атрибута в качестве корневого узла. Полученное стандартное отклонение вычитается из стандартного отклонения перед разделением. Результатом является уменьшение стандартного отклонения.
SDR(T,X)=S(T)-S(T,X) — (стандартное значение до разделения минус стандартное значение после разделения)
Шаг 3. Мы видим, что наибольшее снижение стандартного отклонения относится к атрибуту прогноза. Поэтому он действует как корневой узел в нашем дереве решений.
Шаг 4. Затем мы проверяем другие переменные: Температура, Влажность и Ветер. который будет следующим узлом решения?
На практике нам нужны некоторые критерии завершения. Например, когда коэффициент отклонения (CV) для ветви становится меньше определенного порога (например, 10%) и когда в ветви остается слишком мало экземпляров (n) (например, 3), мы не можем ее дальше разделить.
В случае пасмурной погоды коэффициент вариации равен 8 %, что меньше порогового значения в 10 %. Следовательно, его нельзя разделить дальше, и среднее значение подмножества Overcast становится конечным узлом, т. е. 46,3.
В Солнечном у нас CV составляет 28% (из рисунка 8). Это означает, что его можно разделить. Каким будет следующий узел? уменьшение стандартного отклонения рассчитывается снова.
У нас наибольшее снижение стандартного отклонения для «Ветреного» — 7,62. Он будет считаться следующим узлом принятия решения.
Windy делится на категориальные значения True и Flase. Из рисунка 12 мы можем сказать, что количество ложных значений равно 3, а количество истинных значений равно 2. Оба они не превышают порогового значения количества. поэтому дальнейшее разбиение не выполняется, и средние значения являются листовыми узлами.
У нас есть CV 22% для «Дождливой», что означает, что мы можем разделить его дальше. Таким образом, мы вычисляем уменьшение стандартного отклонения. Из рисунка 13 видно, что Temp имеет наибольшее значение и становится следующим узлом принятия решения. В temp у нас есть три значения (Hot, Cold и Mild). Давайте проверим количество каждого значения.
Из рисунка 14 видно, что все три значения имеют счетчики меньше порогового значения счетчика. Средние значения даны как листовые узлы.
Теперь у нас сформировалось дерево решений, из которого мы можем принимать решения. Например, мы можем сказать, что при солнечной и безветренной погоде мы можем играть 47,7 часов. Если погода дождливая, а температура жаркая, мы можем играть 27,5 часов.