Случайная лесная регрессия

Модели случайного леса - это разновидность непараметрических моделей, которые можно использовать как для регрессии, так и для классификации. В частности, в этом посте мы сосредоточимся на деревьях регрессии.

Случайный лес - один из самых популярных методов ансамбля (используйте несколько алгоритмов обучения, чтобы получить лучшую прогнозирующую способность, чем можно было бы получить только с помощью любого из составляющих алгоритмов обучения).

Шаги по выполнению случайной регрессии леса:

Выберите случайным образом K точек данных из обучающего набора.
Постройте дерево решений, связанное с этими K точками данных.
Выберите количество деревьев (N), которые мы хотим построить, и повторите шаги 1 и 2.
Для новой точки данных создайте каждое из N деревьев для прогнозирования значения Y и назначьте новое значение точки данных как среднее по всем прогнозируемым значениям Y.

Пример: прибыль = b0 + b1 * (расходы на НИОКР) + b2 * (администрация) + b3 * (маркетинг) + b4 * (штат)

Преимущества регрессии случайного леса:

Случайные леса могут дать вам лучшую предсказательную силу, чем деревья решений.
Это уменьшает переоснащение в деревьях решений и помогает повысить точность.
Эффективна для работы с числовыми и категориальными признаками.
Вменение отсутствующих значений не требуется.
Нормализация данных не требуется, поскольку используется подход, основанный на правилах.

Недостатки регрессии случайного леса:

Дерево решений даст вам большую интерпретируемость, чем случайные леса.
Это требует больших вычислительных мощностей, а также ресурсов, поскольку строит многочисленные деревья для объединения их результатов.
Это также требует много времени на обучение, так как объединяет множество деревьев решений для прогнозирования конечного результата.
Трудно интерпретировать и объяснять.

Реализация: перейдите по следующей ссылке для реализации Python и R регрессии случайного леса:

Случайная лесная регрессия

Случайная лесная регрессия

Вопросы по теме