Рассматриваемые темы:

  • Буквально случайный
  • Гипер параметры
  • Печать отдельных деревьев -Интересно
  • Структура каждого дерева - важность функции
  • Преимущества и недостатки-некоторые

Привет, ребята,

Закончили импорт данных, EDA и предварительную обработку и теперь думаете о том, какую модель построить для своего прогноза? Random Forest во многих случаях может помочь вам повысить уверенность в работе, которую вы так стремились выполнять. Хотя это может быть не всегда так, но во многих случаях это так.

Если вы столкнулись с проблемой классификации и обнаружили много отсутствующих или нулевых значений в данных и не совсем уверены, как их все исправить, учитывая сложность набора данных и отсутствие знаний о бизнесе, вы можете есть, вы можете использовать Random Forest.

Случайный лес назван так из-за его буквальной случайности в выборе признаков. Это комбинация нескольких деревьев решений, и в каждом дереве случайным образом выбираются функции для построения узлов.

Он переносит нулевые значения вместе с ним по отдельному пути. Так что нам действительно не нужно беспокоиться о них.

Гиперпараметры — некоторые из них:

1. Bootstrap: это метод выборки, и если задано значение True, извлекается только часть выборочных данных и строится дерево. Иногда это может создавать проблемы, поскольку образцы могут вводить в заблуждение. По моему опыту, я бы посоветовал сохранить это как False, потому что вы, возможно, не сможете сопоставить количество строк, рассматриваемых в узле, и сумму строк в каждом из его дополнительных подузлов. Это может сбить вас с толку. False рассматривает весь набор данных.

2. Максимальная глубина: сообщает каждому дереву, как далеко оно может зайти, чтобы прийти к окончательному решению. Сколько слоев узлов он может построить. Создание слишком большого количества слоев не имеет смысла, так как это может стать совершенно странным. Но в то же время слишком сильное урезание может привести к упущению какой-то важной функции. Таким образом, мы должны решить на основе наших данных и важности функции.

3. Максимальное количество функций. Это максимальное количество функций, которые следует учитывать при разделении каждого узла.

4. n_estimators: это количество деревьев, которые мы хотим построить с помощью алгоритма Random Forest. Хотя мы можем использовать столько, сколько, по нашему мнению, может сработать, мы должны быть осторожны с этим, так как большие числа приводят к чрезмерному потреблению ресурсов и могут привести к сбою машины. Я считаю, что это самая важная настройка в Random Forest.

Печать/отображение деревьев случайного леса:

Одна интересная вещь, которую можно попробовать здесь, — распечатать/отобразить отдельные деревья леса, чтобы сравнить и понять, как они все работают вместе. Например, из 200 деревьев, которые вы, возможно, захотите использовать, попробуйте распечатать несколько первых и несколько последних. Вы заметите, что структура в большинстве случаев полностью меняется по мере продвижения к концу леса.

Первое дерево может быть очень большим, как и следующие несколько деревьев, но по мере того, как вы начинаете отображать последние несколько деревьев, структура полностью меняется, а размер деревьев сравнительно мал. Одна вещь, которую мы можем попробовать и набраться опыта.

Как определяется структура деревьев?

Это полностью основано на важности функции, которую предлагает случайный лес. Чем важнее функция, тем больше она используется в деревьях, и соответственно меняется структура. Самая важная функция может быть найдена в каждом отдельном дереве, а наименее важная может даже не существовать в первых нескольких деревьях и может быть найдена ближе к концу. Поэтому важно понимать важность функции. Мы можем найти это также в python, построив гистограмму или что-то, что отображает важность функции.

Преимущества:

  • Простота в использовании и обучении
  • Новичок в модельном бизнесе
  • Точность

Недостатки:

  • Временами переподгонка
  • Высокая сложность
  • Потребление ресурсов

Спасибо,

Асват Маникавасаган