Случайный лес — это контролируемый алгоритм машинного обучения, который, как и дерево решений, можно использовать для классификации, а также для регрессии.

Содержание

  1. Определение
  2. Предположения случайного леса
  3. Преимущества случайного леса
  4. Недостатки случайного леса
  5. Почему название «Случайное»
  6. Работа случайного леса
  7. Случайный лес и дерево решений
  8. Применения случайного леса
  9. Ссылки

Определение :-

Случайный лес или случайный лес решений — это метод, основанный на построении нескольких деревьев решений на этапе обучения. Решение большинства деревьев выбирается случайным лесом как окончательное решение.

Он работает на основе концепции метода ансамблевого обучения, который работает путем объединения нескольких классификаторов для решения сложной проблемы и повышения производительности модели.

Предположения: -

Случайные леса не имеют формальных предположений о распределении, они непараметричны и могут обрабатывать искаженные и мультимодальные данные, а также категориальные данные, которые являются порядковыми или непорядковыми.

Преимущества :-

Ниже приведены несколько преимуществ Random Forest:

  1. Масштабирование в случайном лесу не требуется.
  2. Random Forest может обрабатывать большие наборы данных даже с высокой размерностью.
  3. Он сохраняет точность даже при отсутствии большого количества точек данных.
  4. Предотвращает переобучение, комбинируя результаты различных деревьев решений.
  5. Случайный лес имеет меньшую дисперсию, чем одиночное дерево решений.

Недостатки: -

Ниже приведены несколько недостатков случайного леса:

  1. Сложность Random Forest — главный недостаток.
  2. Даже небольшое изменение в наборе данных может привести к радикальным изменениям в модели.
  3. Построение случайного леса намного сложнее и сложнее по сравнению с деревом решений.
  4. Он не очень эффективен в вычислительном отношении и требует больше времени по сравнению с другими алгоритмами.
  5. Хотя случайный лес можно использовать как для классификации, так и для регрессии, он не больше подходит для регрессии.

Почему название «Случайный» :-

Ниже приведены две основные концепции, которые дают ему название «случайный»:

  1. При построении дерева вместо всего набора данных используется случайная выборка обучающего набора данных.
  2. При разделении узлов учитываются случайные подмножества атрибутов.

Работа случайного леса: -

Случайный лес использует технику ансамбля пакетов (или, скажем, метод агрегации начальной загрузки), которая объединяет несколько моделей обучения для повышения общих результатов.

Используя технику пакетирования, Random Forest строит несколько деревьев решений, а для создания дерева решений использует выборку строк с заменой и технику выборки признаков, чтобы обучить всю модель по отдельности, а затем объединить результаты модели дерева решений, чтобы сделать прогноз более точным и стабильным.

Случайный лес против дерева решений: -

Как следует из названия, «Дерево» и «Лес» (или, скажем, Коллекция Дерева называется Лесом). Random Forest использует набор деревьев решений для точных прогнозов.

Дерево решений использует полный набор данных, в то время как случайный лес использует только случайно выбранные строки (или, скажем, запись или наблюдения) и столбцы (или, скажем, функции или переменные) для построения нескольких деревьев решений. .

Дерево решений проще для понимания по сравнению со случайным лесом.

Существует вероятность переобучения в дереве решений, но вероятность переоснащения в случайном лесу очень мала.

Приложения случайного леса: -

Ниже приведены несколько основных приложений Random Forest:

  1. Здравоохранение и медицина: – например: Прогноз диабета
  2. Фондовый рынок: пример: Анализ настроений фондового рынка
  3. Электронная коммерция: пример: рекомендация продукта
  4. Банковская отрасль: например: Обнаружение мошенничества с кредитными картами

Использованная литература :-

  1. Википедия
  2. Блоги KDnuggets
  3. Несколько других источников