Если вы не знаете об Энтропии, следите за этим блогом.

Что такое индекс Джини?

Индекс Джини или Примесь Джини рассчитывается путем вычитания суммы квадратов вероятностей каждого класса из единицы. Он предпочитает в основном большие разделы и очень прост в реализации.

Проще говоря, он вычисляет вероятность того, что определенная случайно выбранная функция будет неправильно классифицирована.

другой (🤦‍♂️) вычисляет вероятность того, что конкретная функция классифицируется неправильно при случайном выборе.

формула,

после вычисления индекса Джини мы собираемся вычислить прирост информации (точно так же, как энтропия, но вместо этого мы используем Джини).

Энтропия против Джини

на этом графике по оси X — вероятность положительного результата (P(+)) и по оси Y — выходное значение, полученное после применения формулы.

Работа обоих методов очень похожа и используется для разделения дерева решений.

для энтропии она достигнет 1 сверху, а затем уменьшится. с другой стороны, Джини достигает 0,5, а затем снижается.

Энтропия требует слишком много вычислительной мощности по сравнению с Джини, потому что в его формуле используется логарифм, который требует много энергии при большом количестве данных.

Энтропия находится в диапазоне от 0 до 1, а Джини — в диапазоне от 0 до 0,5.

Как дерево решений находит значения разделения, когда есть числовые значения?

Например, у нас есть один числовой признак и проблема его классификации.

шаг-1: отсортировать все значения числовых функций

шаг 2: он примет пороговое значение

шаг-3: затем вычислить энтропию или Джини, затем перейти к получению информации

каждый раз, когда шаги 2 и 3 будут продолжаться непрерывно, пороговое значение будет меняться каждый раз, и будет выбрано дерево решений, которое когда-либо DT имеет хороший информационный прирост.

Спасибо, что читаете этот блог :)