Контролируемое машинное обучение — алгоритм случайного леса с Python, часть № 1

Что такое алгоритм случайного леса?

Random Forest — это контролируемый алгоритм машинного обучения, основанный на ансамблевом обучении. В статистике и методах машинного обучения ансамблевые методы используют несколько алгоритмов обучения для повышения эффективности прогнозирования. В этом направлении Random Forest объединяет несколько однотипных алгоритмов. Также мы можем использовать Random Forest как для задач регрессии, так и для задач классификации.

Как работает алгоритм случайного леса?

Псевдокод случайного леса:

1- Случайным образом выберите «k» объектов из общего количества «m» объектов.

2- Среди признаков "k" вычислите узел "d", используя наилучшую точку разделения.

3- Разделить узел на дочерние узлы, используя наилучшее разделение.

4- Повторяйте шаги от от 1 до 3, пока не будет достигнуто количество узлов «l».

5- Постройте лес, повторив шаги с 1 по 4 "n" раз, чтобы создать "n" количество деревьев.

Преимущества случайного леса

1- Мы создаем множество деревьев данных и объединяем вывод всех деревьев. Таким образом, мы можем уменьшить проблему переобучения.

2- Как я уже упоминал, мы можем решить как проблемы регрессии, так и проблемы классификации.

3- Хорошо работает с категориальными и непрерывными переменными.

4- Не требуется масштабирование функций.

5- Эффективно обрабатывает нелинейные параметры.

6- Стабильный и менее подверженный шуму.

Недостатки случайного леса

1- Сложность

2- Более длительные периоды обучения

Следующая часть серии блогов

Во второй части мы будем использовать алгоритм Random Forest для решения задачи о потреблении бензина и реализовать его на наборе данных.