У дерева есть много аналогий в реальной жизни, и оказывается, что оно повлияло на широкую область машинного обучения, охватывающую как классификацию, так и регрессию. В анализе решений дерево решений можно использовать для визуального и явного представления решений и принятия решений. Как следует из названия, он использует древовидную модель решений.

Дерево решений перевернуто с корнем вверх. На изображении слева полужирный текст черного цвета обозначает условие/внутренний узел, на основе которого дерево разбивается на ветви/ ребра. Конец ветки, которая больше не разделяется, — это решение/лист, в данном случае то, умер ли пассажир или выжил, представленный красным и зеленым текстом соответственно.

Типы деревьев решений:

Деревья классификации: в этом типе анализ происходит, когда прогнозируемый результат принадлежит классу, к которому принадлежат наши исходные данные. Например, исход перехода дороги опасен или нет.

Дерево регрессии. Анализ выполняется, когда прогнозируемый результат можно считать реальным числом.

ID3 : Итеративный дихотомайзер — это алгоритм, который создает дерево решений на основе данных. Он использует нисходящий подход и выполняет жадный поиск по набору данных. Каждый атрибут проверяется в каждом узле дерева, чтобы получить лучший атрибут для классификации. Поэтому, наконец, атрибут с наибольшим информационным приростом используется в конкретном узле дерева. Он принимает только категориальные атрибуты.

C 4.5: расширение алгоритма ID3. Он создает деревья решений, которые можно использовать для классификации, поэтому его также называют статистическим классификатором.Он лучше, чем ID3, поскольку работает с непрерывными и дискретными атрибутами, а также хорошо работает с пропущенными значениями. C 5.0 является преемником C4.5, потому что он намного быстрее и более эффективно использует память.

CART: деревья классификации и регрессии. Они используются как для классификации целей, так и для регрессии. CART использует бинарное разбиение атрибутов для формирования деревьев решений с помощью классификации. Атрибуты разделения выбираются с помощью индекса Джини. Он также используется для регрессионного анализа. Он также поддерживает как непрерывные, так и номинальные атрибутивные данные.

Показатели выбора атрибутов:

  1. НЕЧИСТОСТЬ -: Нечистота - это когда у нас есть следы деления одного класса на другой.
  2. ЭНТРОПИЯ -: Энтропия - это степень случайности элементов или, другими словами, это мера примеси.

3. ПОЛУЧЕНИЕ ИНФОРМАЦИИ. Предположим, мы делим классы на несколько ветвей следующим образом: прирост информации в любом узле определяется как

Information Gain (n) =
  Entropy(x) — ([weighted average] * entropy(children for feature))

Это все основное, чтобы вы могли освоить обучение дереву решений. Улучшение по сравнению с обучением дерева решений сделано с использованием техники повышения. Популярной библиотекой для реализации этих алгоритмов является Scikit-Learn.