Что такое алгоритм случайного леса?
Random Forest — это контролируемый алгоритм машинного обучения, основанный на ансамблевом обучении. В статистике и методах машинного обучения ансамблевые методы используют несколько алгоритмов обучения для повышения эффективности прогнозирования. В этом направлении Random Forest объединяет несколько однотипных алгоритмов. Также мы можем использовать Random Forest как для задач регрессии, так и для задач классификации.
Как работает алгоритм случайного леса?
Псевдокод случайного леса:
1- Случайным образом выберите «k» объектов из общего количества «m» объектов.
2- Среди признаков "k" вычислите узел "d", используя наилучшую точку разделения.
3- Разделить узел на дочерние узлы, используя наилучшее разделение.
4- Повторяйте шаги от от 1 до 3, пока не будет достигнуто количество узлов «l».
5- Постройте лес, повторив шаги с 1 по 4 "n" раз, чтобы создать "n" количество деревьев.
Преимущества случайного леса
1- Мы создаем множество деревьев данных и объединяем вывод всех деревьев. Таким образом, мы можем уменьшить проблему переобучения.
2- Как я уже упоминал, мы можем решить как проблемы регрессии, так и проблемы классификации.
3- Хорошо работает с категориальными и непрерывными переменными.
4- Не требуется масштабирование функций.
5- Эффективно обрабатывает нелинейные параметры.
6- Стабильный и менее подверженный шуму.
Недостатки случайного леса
1- Сложность
2- Более длительные периоды обучения
Следующая часть серии блогов
Во второй части мы будем использовать алгоритм Random Forest для решения задачи о потреблении бензина и реализовать его на наборе данных.