Модели случайного леса - это разновидность непараметрических моделей, которые можно использовать как для регрессии, так и для классификации. В частности, в этом посте мы сосредоточимся на деревьях регрессии.

Случайный лес - один из самых популярных методов ансамбля (используйте несколько алгоритмов обучения, чтобы получить лучшую прогнозирующую способность, чем можно было бы получить только с помощью любого из составляющих алгоритмов обучения).

Шаги по выполнению случайной регрессии леса:

  1. Выберите случайным образом K точек данных из обучающего набора.
  2. Постройте дерево решений, связанное с этими K точками данных.
  3. Выберите количество деревьев (N), которые мы хотим построить, и повторите шаги 1 и 2.
  4. Для новой точки данных создайте каждое из N деревьев для прогнозирования значения Y и назначьте новое значение точки данных как среднее по всем прогнозируемым значениям Y.

Пример: прибыль = b0 + b1 * (расходы на НИОКР) + b2 * (администрация) + b3 * (маркетинг) + b4 * (штат)

Преимущества регрессии случайного леса:

  1. Случайные леса могут дать вам лучшую предсказательную силу, чем деревья решений.
  2. Это уменьшает переоснащение в деревьях решений и помогает повысить точность.
  3. Эффективна для работы с числовыми и категориальными признаками.
  4. Вменение отсутствующих значений не требуется.
  5. Нормализация данных не требуется, поскольку используется подход, основанный на правилах.

Недостатки регрессии случайного леса:

  1. Дерево решений даст вам большую интерпретируемость, чем случайные леса.
  2. Это требует больших вычислительных мощностей, а также ресурсов, поскольку строит многочисленные деревья для объединения их результатов.
  3. Это также требует много времени на обучение, так как объединяет множество деревьев решений для прогнозирования конечного результата.
  4. Трудно интерпретировать и объяснять.

Реализация: перейдите по следующей ссылке для реализации Python и R регрессии случайного леса:

Случайная лесная регрессия