Что такое дерево решений?

Представьте, что вы звоните в крупную компанию и в конечном итоге разговариваете с их умным компьютеризированным помощником, нажимая 1, затем 6, затем 7, затем вводя номер своего счета, девичью фамилию матери, номер вашего дома, прежде чем нажимать 3, 5 и 2 и достигнув измученного человека. Вы можете подумать, что попали в ад голосовой почты, но компания, в которую вы звонили, просто использовала дерево решений, чтобы направить вас к нужному человеку.

Вот как выглядят деревья решений в реальной жизни.

Как работает алгоритм дерева решений?

Алгоритм дерева решений принадлежит к семейству алгоритмов контролируемого обучения. В отличие от других алгоритмов контролируемого обучения, алгоритм дерева решений также может использоваться для решения задач регрессии и классификации.

Общий мотив использования Дерева решений - создание модели обучения, которую можно использовать для прогнозирования класса или значения целевых переменных с помощью правил принятия решений для обучения, выведенных из предшествующих данных (данных обучения).

Уровень понимания алгоритма дерева решений настолько прост по сравнению с другими алгоритмами классификации. Алгоритм дерева решений пытается решить проблему, используя представление в виде дерева. Каждый внутренний узел дерева соответствует атрибуту, а каждый листовой узел соответствует метке класса.

Псевдокод.

  1. Поместите лучший атрибут набора данных в корень дерева.
  2. Разделите обучающий набор на подмножества. Подмножества должны быть созданы таким образом, чтобы каждое подмножество содержало данные с одинаковым значением атрибута.
  3. Повторяйте шаги 1 и 2 для каждого подмножества, пока не найдете листовые узлы во всех ветвях дерева.

Предположения при создании дерева решений.

Ниже приведены некоторые предположения, которые мы делаем при использовании дерева решений:

  • Вначале весь обучающий набор рассматривается как корень.
  • Желательно, чтобы значения характеристик были категориальными. Если значения непрерывны, то они дискретизируются перед построением модели.
  • Записи распределяются рекурсивно на основе значений атрибутов.
  • Порядок размещения атрибутов в качестве корневого или внутреннего узла дерева выполняется с использованием некоторого статистического подхода, о котором говорится ниже.

Теперь вопрос в том, какой атрибут (функция) выбрать в качестве корневого узла.

Если набор данных состоит из «n» атрибутов (функций), то решение, какой атрибут разместить в корне или на разных уровнях дерева в качестве внутренних узлов, является сложным шагом. Простой случайный выбор любого узла в качестве корневого не может решить проблему. Если мы будем использовать случайный подход, это может дать нам плохие результаты с низкой точностью.

Для решения этой проблемы выбора атрибутов исследователи разработали несколько решений. Они предложили использовать некий алгоритм, например, получение информации, индекс Джини и т. Д. Эти алгоритмы будут вычислять значения для каждого атрибута. Значения сортируются, а атрибуты размещаются в дереве в соответствии с порядком, т. Е. Атрибут с высоким значением (в случае получения информации) помещается в корень.

При использовании информационного прироста в качестве алгоритма мы предполагаем, что атрибуты являются категориальными, а для индекса Джини атрибуты считаются непрерывными.

Недостатки дерева решений.

  1. Существует высокая вероятность переобучения в Дереве решений.
  2. Как правило, он дает низкую точность прогнозирования для набора данных по сравнению с другими алгоритмами машинного обучения.
  3. Прирост информации в дереве решений с категориальными переменными дает предвзятый ответ для атрибутов с большим числом. категорий.
  4. Вычисления могут стать сложными, если имеется много меток классов.

Преимущества дерева решений.

  1. Деревья решений легко объяснить. Это приводит к набору правил.
  2. Он следует тому же подходу, которому обычно следуют люди при принятии решений.
  3. Интерпретацию сложной модели дерева решений можно упростить за счет ее визуализации. Даже наивный человек может понять логику.
  4. Количество настраиваемых гиперпараметров почти равно нулю.

Ссылки:

Https://www.xoriant.com/blog/product-engineering/decision-trees-machine-learning-algorithm.html

Http://dataaspirant.com/2017/01/30/how-decision-tree-algorithm-works/

Https://towardsdatascience.com/decision-trees-in-machine-learning-641b9c4e8052