• Мы видели в теме дерева решений, что дерево решений имеет тенденцию к переоснащению, то есть мы используем RF.
  • Каждый лес состоит из деревьев, и RF не является исключением, потому что RF состоит из DT.
  • Работает очень хорошо, чем многие другие алгоритмы машинного обучения.
  • RF следует технике ансамбля, из которой он использует бэггинг.
  • Бэггинг — это не что иное, как агрегация Bootstrap. B от Bootstrap Agg от Aggregation.
  • Легко распараллелить
  • Ошибка OOB и оценка OOB: как наша модель ведет себя по сравнению с данными тестирования.
  • Обычно 2/3 данных выбираются по строкам.
  • Обычно root (функции) или log2 (функции) выбираются при выборке функций.
  • Жесткое голосование и мягкое голосование. По умолчанию SK Learn использует жесткое голосование.
  • Для Ensemble 2 должны быть выполнены условия, чтобы принять модель Ensembled:

Разнообразие. Модель должна быть разнообразной.

Приемлемость: модель должна быть достаточно приемлемой.

  • Как для регрессии, так и для классификации.
  • Для регрессии используется медиана или среднее значение. SK Learn по умолчанию использует среднее значение.
  • В DT модель подавляет один из атрибутов, но при выборке признаков каждый признак получает одинаковую важность.
  • При настройке гиперпараметров он состоит из n_estimators вместе со всеми гиперпараметрами DT.

Преимущества:

  1. Это уменьшает переоснащение ДЦ.
  2. Не влияет на выбросы.
  3. Непараметрический.
  4. Масштабирование функций не требуется.
  5. Это повышает точность тестирования.
  6. И регрессия, и классификация.
  7. Не подавляет атрибут, как DT.
  8. Легко распараллелить
  9. Стабильный.
  10. Хорошо работает с многомерными данными.

Недостатки:

  1. Требуется больше вычислений.
  2. Требуется больше времени.
  3. Модель черного ящика
  4. Вы не можете объяснить его математические интуиции на языке непрофессионала.
  5. Очень сложный