У дерева есть много аналогий в реальной жизни, и оказывается, что оно повлияло на широкую область машинного обучения, охватывающую как классификацию, так и регрессию. В анализе решений дерево решений можно использовать для визуального и явного представления решений и принятия решений. Как следует из названия, он использует древовидную модель решений.
Дерево решений перевернуто с корнем вверх. На изображении слева полужирный текст черного цвета обозначает условие/внутренний узел, на основе которого дерево разбивается на ветви/ ребра. Конец ветки, которая больше не разделяется, — это решение/лист, в данном случае то, умер ли пассажир или выжил, представленный красным и зеленым текстом соответственно.
Типы деревьев решений:
Деревья классификации: в этом типе анализ происходит, когда прогнозируемый результат принадлежит классу, к которому принадлежат наши исходные данные. Например, исход перехода дороги опасен или нет.
Дерево регрессии. Анализ выполняется, когда прогнозируемый результат можно считать реальным числом.
ID3 : Итеративный дихотомайзер — это алгоритм, который создает дерево решений на основе данных. Он использует нисходящий подход и выполняет жадный поиск по набору данных. Каждый атрибут проверяется в каждом узле дерева, чтобы получить лучший атрибут для классификации. Поэтому, наконец, атрибут с наибольшим информационным приростом используется в конкретном узле дерева. Он принимает только категориальные атрибуты.
C 4.5: расширение алгоритма ID3. Он создает деревья решений, которые можно использовать для классификации, поэтому его также называют статистическим классификатором.Он лучше, чем ID3, поскольку работает с непрерывными и дискретными атрибутами, а также хорошо работает с пропущенными значениями. C 5.0 является преемником C4.5, потому что он намного быстрее и более эффективно использует память.
CART: деревья классификации и регрессии. Они используются как для классификации целей, так и для регрессии. CART использует бинарное разбиение атрибутов для формирования деревьев решений с помощью классификации. Атрибуты разделения выбираются с помощью индекса Джини. Он также используется для регрессионного анализа. Он также поддерживает как непрерывные, так и номинальные атрибутивные данные.
Показатели выбора атрибутов:
- НЕЧИСТОСТЬ -: Нечистота - это когда у нас есть следы деления одного класса на другой.
- ЭНТРОПИЯ -: Энтропия - это степень случайности элементов или, другими словами, это мера примеси.
3. ПОЛУЧЕНИЕ ИНФОРМАЦИИ. Предположим, мы делим классы на несколько ветвей следующим образом: прирост информации в любом узле определяется как
Information Gain (n) = Entropy(x) — ([weighted average] * entropy(children for feature))
Это все основное, чтобы вы могли освоить обучение дереву решений. Улучшение по сравнению с обучением дерева решений сделано с использованием техники повышения. Популярной библиотекой для реализации этих алгоритмов является Scikit-Learn.