Случайный лес

Случайный лес — это контролируемый алгоритм машинного обучения, который, как и дерево решений, можно использовать для классификации, а также для регрессии.

Содержание

Определение
Предположения случайного леса
Преимущества случайного леса
Недостатки случайного леса
Почему название «Случайное»
Работа случайного леса
Случайный лес и дерево решений
Применения случайного леса
Ссылки

Определение :-

Случайный лес или случайный лес решений — это метод, основанный на построении нескольких деревьев решений на этапе обучения. Решение большинства деревьев выбирается случайным лесом как окончательное решение.

Он работает на основе концепции метода ансамблевого обучения, который работает путем объединения нескольких классификаторов для решения сложной проблемы и повышения производительности модели.

Предположения: -

Случайные леса не имеют формальных предположений о распределении, они непараметричны и могут обрабатывать искаженные и мультимодальные данные, а также категориальные данные, которые являются порядковыми или непорядковыми.

Преимущества :-

Ниже приведены несколько преимуществ Random Forest:

Масштабирование в случайном лесу не требуется.
Random Forest может обрабатывать большие наборы данных даже с высокой размерностью.
Он сохраняет точность даже при отсутствии большого количества точек данных.
Предотвращает переобучение, комбинируя результаты различных деревьев решений.
Случайный лес имеет меньшую дисперсию, чем одиночное дерево решений.

Недостатки: -

Ниже приведены несколько недостатков случайного леса:

Сложность Random Forest — главный недостаток.
Даже небольшое изменение в наборе данных может привести к радикальным изменениям в модели.
Построение случайного леса намного сложнее и сложнее по сравнению с деревом решений.
Он не очень эффективен в вычислительном отношении и требует больше времени по сравнению с другими алгоритмами.
Хотя случайный лес можно использовать как для классификации, так и для регрессии, он не больше подходит для регрессии.

Почему название «Случайный» :-

Ниже приведены две основные концепции, которые дают ему название «случайный»:

При построении дерева вместо всего набора данных используется случайная выборка обучающего набора данных.
При разделении узлов учитываются случайные подмножества атрибутов.

Работа случайного леса: -

Случайный лес использует технику ансамбля пакетов (или, скажем, метод агрегации начальной загрузки), которая объединяет несколько моделей обучения для повышения общих результатов.

Используя технику пакетирования, Random Forest строит несколько деревьев решений, а для создания дерева решений использует выборку строк с заменой и технику выборки признаков, чтобы обучить всю модель по отдельности, а затем объединить результаты модели дерева решений, чтобы сделать прогноз более точным и стабильным.