как и в других статьях, я не буду объяснять весь алгоритм, но в этом посте я собираюсь обсудить некоторые из наиболее важных концепций, которые необходимы для освоения алгоритма машинного обучения, который является алгоритмом дерева решений. Уверяю вас, что после этой статьи вы будете очень готовы встретить любой блог, видео или книги о дереве решений. Итак, без дальнейших задержек, давайте рассмотрим наиболее важные концепции алгоритма.

Энтропия:

Но прежде чем я что-то скажу, давайте посмотрим на эти данные. Это будет наша ссылка в каждом блоке.

Это данные о сельском хозяйстве. Особенностями являются состояние почвы, количество травы и погода. Основываясь на этих условиях, мы можем узнать, следует ли нам сажать семена или нет. Хорошо, давайте начнем.

Я предполагаю, что вы знаете, что такое узел, корневой или листовой узел.

Энтропия — это мера случайности или нечистоты узла. Он говорит нам, насколько случайны наши данные. Чем больше вариаций в наших данных, тем больше энтропия. Для нашего дерева решений большая энтропия — это плохо, а меньшая — хорошо. Ветвь с энтропией 0 является конечным узлом, а ветвь с энтропией больше 0 требует дальнейшего разделения. Математически энтропия для 1 атрибута определяется выражением

Посмотрим на посадку

Что является величайшим из того, что может быть

Для вероятности 1 или 0 энтропия будет равна 0, а для вероятности 0,5 энтропия будет равна 1 (самая высокая).

Математически энтропия для нескольких атрибутов определяется выражением

Помните, что мы используем средневзвешенное значение для расчета энтропии.

Теперь, когда энтропия покрыта, мы можем перейти к получению информации.

Получение информации (IG):

При построении дерева решений сложно выбрать первый атрибут, который будет использоваться в качестве корневого узла. Мы используем получение информации для этого. Прирост информации измеряет снижение неопределенности. Вы можете представить это как измерение того, насколько хорошо атрибут разделяет обучающие примеры в соответствии с их целевой классификацией.

При построении дерева решений мы будем много IG.

Математически прирост информации есть уменьшение энтропии. Он вычисляет энтропию до разделения и после разделения для данного атрибута.

В нашем наборе данных у нас есть три атрибута. Мы будем использовать IG, чтобы увидеть, какой атрибут выбрать в качестве корневого узла.

Математически

Давайте проверим все наши атрибуты

Что не так уж и здорово.

Аналогично вычисляем

И

Мы видим, что характеристика состояния почвы имеет наибольший прирост информации. Следовательно, мы выберем функцию «Состояние почвы» и разделим узел на основе этой функции.

Мы сделаем то же самое для подузлов. Чем больше получено информации, тем лучше ее можно разделить.

Примечание.Прирост информации не является отрицательным.

Индекс Джини:

Математически

Он рассчитывается путем вычитания суммы квадратов вероятностей каждого класса. Индекс Джини работает только с бинарными категориальными переменными. более высокое значение индекса Джини подразумевает более высокую примесь. Более высокая неоднородность.

Однородный означает сходное поведение с классом. Если узлы полностью чистые, то у них будут ответы одного класса. Гетерогенность противоположна этому.

Точно так же, как мы рассчитали прирост информации для каждой функции и выбрали наивысшую из них, чтобы выбрать корневой узел, теперь мы будем использовать примесь Джини для выбора узла.

Шаг 1. рассчитайте p² + q² для да (p) и нет (q), используя приведенную выше формулу.

Шаг 2. Рассчитайте индекс Джини для разделения, используя взвешенную оценку Джини для каждого узла этого разделения.

Для нашего набора данных давайте сначала выберем характеристику состояния почвы и рассчитаем индекс Джини.

Теперь давайте рассчитаем примесь Джини для подузлов.

Получается 0,48

Нет, мы рассчитаем это также для влажного и умеренного состояния почвы.

И

мы возьмем взвешенные примеси Джини всех узлов. вес узла — это количество выборок в этом узле, деленное на общее количество выборок в родительском узле.

Аналогичным образом мы рассчитали взвешенную примесь Джини для других признаков. Они оказываются

и

Нет, давайте сравним эти взвешенные примеси Джини.

Мы видим, что примесь Джини для расщепления по условию почвы меньше. И, следовательно, состояние почвы будет первым разделением этого дерева решений.

минимальное значение индекса Джини будет означать, что узел будет более однородным. Так что для дальнейшего разделения мы можем использовать Gini Impurity.

В этом блоге можно обсудить и другие темы, но поскольку эта статья становится все более сложной и длинной, мы закончим ее прямо здесь. Во второй части мы обсудим коэффициент усиления, различные алгоритмы дерева решений, их работу и многое другое.

Пожалуйста, следуйте за мной на medium или любой другой социальной ссылке, упомянутой ниже, и обязательно прокомментируйте свои мысли, какими бы они ни были, в разделе комментариев.

Гитхаб, LinkedIn, Твиттер

С учетом сказанного. Спасибо, до свидания.