Деревья решений

Мохамед Шаабан

Деревья решений — это способ учиться на данных, используя что-то вроде нескольких условий. Посмотрите на картинку ниже:

Задавая простые вопросы, мы можем прийти к окончательному решению. Существует два типа деревьев решений в зависимости от типа вопроса. Если это классификация, образец — это предложение о работе (да или нет). И второй тип деревьев решений — это регрессия. Это используется для предсказания числа. Скажем, по весу животного мы можем попытаться предсказать его размер. Деревья решений всегда пытаются классифицировать любое нечистое решение до чистого. Нечистое решение, например, если зарплата выше 50 000, мы все равно должны думать о других вариантах. Однако, если это было меньше, то это чистое решение, просто отклоните предложение.

Когда дерево нечисто, нам нужно выбрать наилучшее разделение. Мы можем сделать это, измеряя примеси и сравнивая их, один из распространенных методов называется методом Джини. Примесь Джини = 1 — (вероятность да)² — (вероятность нет)²

Когда примесь Джини самая низкая, это лучшее разделение.

Вот код, использующий классификатор дерева решений для набора данных:

Использованная литература:

https://towardsdatascience.com/decision-tree-hugging-b8851f853486

https://www.youtube.com/watch?v=7VeUPuFGJHk&t=734s

https://scikitlearn.org/stable/auto_examples/tree/plot_unveil_tree_structure.html

Деревья решений

Вопросы по теме