В моей предыдущей статье мы обсуждали алгоритм дерево решений. Хотя дерево решений - очень крутой интуитивно понятный алгоритм, оно несет в себе проклятие переобучения. В этой статье мы опираемся на идею дерева решений и узнаем об алгоритме случайного леса, который широко используется в мире машинного обучения.

Алгоритм случайного леса

  • Согласно Википедии

Случайные леса или случайные леса решений - это метод ансамблевого обучения для классификации, регрессии и других задач, который работает путем построения множества деревьев решений во время обучения. время и вывод класса, который является режимом классов (классификация) или средним / средним прогнозом (регрессия) отдельных деревьев

Шаги

  1. Здесь мы берем обучающие данные, а затем создаем из них загружаемые наборы данных. Взгляните на изображение ниже, чтобы лучше понять это.

  • Итак, мы взяли полный набор данных, а затем разделили его на несколько частей. Помните, что примеры можно повторять в разных образцах начальной загрузки.
  • Затем мы берем эти загруженные образцы и используем их для построения нескольких деревьев решений. Создаваемые деревья решений будут вести себя по-разному, поскольку они созданы с использованием разных образцов.
  • Разнообразие, которое мы получаем, создавая несколько деревьев решений, делает его более эффективным, чем отдельные деревья решений.

Как мы их теперь используем?

  • Теперь мы создали наше дерево решений, как нам его оценить или использовать для прогнозирования.
  • Для оценки проделаем следующий трюк. Большая часть данных из обучающего набора не попадает в набор данных начальной загрузки. Он называется «набором данных вне сумки», и мы можем использовать его для оценки случайного леса.
  • Мы берем пример и затем передаем его другому дереву решений. Если это задача регрессии, мы берем среднее значение вывода. Если это задача классификации, мы даем результат как тот, который предсказывается большинством деревьев.
  • Доля образцов вне сумки, которые были неправильно классифицированы, называется «ошибкой вне сумки».

Техника упаковки

  • Бэггинг - это техника, которую использует случайный лес.
  • Пакетирование можно охарактеризовать как начальную загрузку, за которой следует этап агрегации.
  • В случайном лесу мы применяем эту технику упаковки, сначала загружая набор данных для создания нескольких деревьев решений, а затем агрегируя их результаты, чтобы получить окончательный результат.

Плюсы случайного леса

  • Случайные леса устойчивы к выбросам, поскольку они усредняются путем агрегирования нескольких выходных деревьев.
  • Он действительно хорошо работает с нелинейными данными.
  • Риск переобучения невелик, поскольку результаты рассчитываются на основе выходных данных нескольких деревьев решений.

Надеюсь, эта статья даст вам лучшее представление о том, как работают случайные леса.

А пока желаю удачи !!!