- Мы видели в теме дерева решений, что дерево решений имеет тенденцию к переоснащению, то есть мы используем RF.
- Каждый лес состоит из деревьев, и RF не является исключением, потому что RF состоит из DT.
- Работает очень хорошо, чем многие другие алгоритмы машинного обучения.
- RF следует технике ансамбля, из которой он использует бэггинг.
- Бэггинг — это не что иное, как агрегация Bootstrap. B от Bootstrap Agg от Aggregation.
- Легко распараллелить
- Ошибка OOB и оценка OOB: как наша модель ведет себя по сравнению с данными тестирования.
- Обычно 2/3 данных выбираются по строкам.
- Обычно root (функции) или log2 (функции) выбираются при выборке функций.
- Жесткое голосование и мягкое голосование. По умолчанию SK Learn использует жесткое голосование.
- Для Ensemble 2 должны быть выполнены условия, чтобы принять модель Ensembled:
Разнообразие. Модель должна быть разнообразной.
Приемлемость: модель должна быть достаточно приемлемой.
- Как для регрессии, так и для классификации.
- Для регрессии используется медиана или среднее значение. SK Learn по умолчанию использует среднее значение.
- В DT модель подавляет один из атрибутов, но при выборке признаков каждый признак получает одинаковую важность.
- При настройке гиперпараметров он состоит из n_estimators вместе со всеми гиперпараметрами DT.
Преимущества:
- Это уменьшает переоснащение ДЦ.
- Не влияет на выбросы.
- Непараметрический.
- Масштабирование функций не требуется.
- Это повышает точность тестирования.
- И регрессия, и классификация.
- Не подавляет атрибут, как DT.
- Легко распараллелить
- Стабильный.
- Хорошо работает с многомерными данными.
Недостатки:
- Требуется больше вычислений.
- Требуется больше времени.
- Модель черного ящика
- Вы не можете объяснить его математические интуиции на языке непрофессионала.
- Очень сложный