Давайте рассмотрим один из следующих алгоритмов обучения с учителем. Алгоритм дерева решений, используемый как для задач классификации, так и для задач, основанных на регрессии.

Мы можем представить его как классификатор на основе древовидной структуры, в котором используются следующие представления:

· Внутренние узлы представляют — особенности набора данных.

· Филиалы представляют собой правила принятия решений.

· Каждый листовой узел представляет — результат.

В основном в дереве есть два узла: узел решения и конечный узел.

Узел принятия решения: эти узлы используются для принятия множества различных решений и имеют несколько ветвей.

Конечный узел: эти узлы представляют собой результат решений и не содержат дополнительных ветвей.

Итак, прежде чем приступить к фактической работе алгоритма дерева решений, сначала ознакомьтесь с основными терминами этого алгоритма:

· Корневой узел. С него начинается фактическое дерево решений. В основном он представляет собой весь набор данных, который далее делится на два или более набора.

· Листовой узел: они являются окончательным выходным узлом, и после получения конечного узла дерево не может быть далее разделено.

· Поддерево (ветвь): это дерево, образованное путем разделения дерева.

· Разделение. Разделение — это процесс разделения узла принятия решений в соответствии с условиями.

· Родительский и дочерний узел: корневой узел дерева называется родительским узлом, а другие узлы называются дочерними узлами.

· Обрезка: это процесс удаления нежелательных ветвей из древовидной структуры.

Работа алгоритма дерева решений:

· Чтобы предсказать класс данного набора данных, алгоритм начинается с корневого узла.

· Этот алгоритм сравнивает значения корневого атрибута с заданным атрибутом реального набора данных и на основе выполненного сравнения следует по ветви и в соответствии с ней переходит к следующему узлу.

· Обрабатывая следующий узел, алгоритм снова сравнивает значение атрибута узла с другими подузлами и движется дальше, и этот процесс продолжается до тех пор, пока не достигнет конечного узла дерева.

Давайте разберемся с работой алгоритма дерева решений на следующем примере:

Учтите, что здесь человек должен решать, что ему делать в зависимости от погодных условий.

Итак, чтобы решить эту проблему, алгоритм дерева решений начинается с корневого узла, который состоит из информации об атрибуте дождя, корневой узел далее разделяется на следующий узел решения. Следующий узел принятия решений далее разделяется на два узла принятия решений. Наконец, узел решения разбивается на два листовых узла, как показано в приведенном выше дереве, в соответствии с ветвями да/нет, выбранными для решения проблемы.

Преимущества:

· Простой для понимания и интерпретации.

· Он способен решать проблемы с несколькими выходами.

· Возможность проверки модели с использованием статистических тестов.

· Требуется небольшая подготовка данных.

Недостатки:

· Дерево решений содержит много слоев, что делает его сложным.

· Деревья решений могут быть нестабильными, поскольку небольшие изменения в данных могут привести к созданию совершенно другого дерева.

· Во многих случаях может возникнуть проблема переобучения, которую можно решить с помощью алгоритма Random Forest.