Обзор алгоритмов деревьев решений (CART, C4.5, ID3)

Деревья решений - один из любимых методов специалистов по данным; Деревья решений любят игру с 20 вопросами; не зная, попробуйте задать вопросы с ограничением 20, чтобы угадать ответ.

В деревьях решений есть много техник, таких как ID3, C4.5, CART. Каждый из методов пытается разделить данные с получением большего количества информации. В чем выгода информации?

«В методе дерева решений метод получения информации обычно используется для определения подходящего свойства для каждого узла сгенерированного дерева решений».

Почему деревья решений так важны? Современные алгоритмы, такие как Gradient-Boosting, XGBoost, LightGBM, являются алгоритмами повышения, и они полезны и эффективны. Ссылка - конкурс Kaggle и блоги таких компаний, как UBER.

На платформе Michelangelo специалисты по обработке данных UberEATS используют модели регрессии дерева решений с градиентным усилением для прогнозирования времени непрерывной доставки.

XGBoost - эффективный алгоритм для решения проблем классификации и регрессии в области машинного обучения и науки о данных; XGBoost был представлен в 2016 году Тианки Ченом и Карлосом Гестрином из Вашингтонского университета.

Среди методов машинного обучения, используемых на практике, повышение градиентного дерева является одним из методов, который используется во многих приложениях [Chen, Tianqi, and Carlos Guestrin

Модель XGBoost использует CART для построения деревьев решений на каждом этапе процесса повышения.

Я упоминаю это видео, и разработчики Google показывают, как алгоритм CART может разделять данные с помощью статистического уравнения.

CART использует примесь GINI для разделения данных, сначала выбирая всех кандидатов, затем разделяя данные и вычисляя примесь Gini, чтобы узнать, какой из них является лучшим выбором. Если вы посмотрите видео, вы узнаете, как работают деревья решений (ТЕЛЕЖКА).

Существует множество статистических методов для расчета прироста информации, например, GINI и энтропия; это обычный метод для использования в деревьях решений. КОРЗИНА использует примесь Джини.

вот сравнения методов:

Теперь вы видите, чем отличаются деревья решений и какое из них поддерживает функцию повышения. Я действительно рекомендую прочитать о наклонных деревьях решений и о том, почему они быстрые

Xgboost: масштабируемая система повышения качества дерева ». Материалы 22-й международной конференции acm sigkdd по открытию знаний и интеллектуальному анализу данных. ACM, 2016.
Https://en.wikipedia.org/wiki/Decision_tree_learning
Https://eng.uber.com/michelangelo/
Шарма, Химани и Сунил Кумар. «Обзор алгоритмов классификации дерева решений в интеллектуальном анализе данных». Международный научно-исследовательский журнал (IJSR) 5.4 (2016): 2094–2097.
Https://www.youtube.com/watch?v=LDRbO9a6XPU&t=237s

Обзор алгоритмов деревьев решений (CART, C4.5, ID3)

Вопросы по теме