Поговорим о случайных лесах!

В моей предыдущей статье мы обсуждали алгоритм дерево решений. Хотя дерево решений - очень крутой интуитивно понятный алгоритм, оно несет в себе проклятие переобучения. В этой статье мы опираемся на идею дерева решений и узнаем об алгоритме случайного леса, который широко используется в мире машинного обучения.

Алгоритм случайного леса

Согласно Википедии

Случайные леса или случайные леса решений - это метод ансамблевого обучения для классификации, регрессии и других задач, который работает путем построения множества деревьев решений во время обучения. время и вывод класса, который является режимом классов (классификация) или средним / средним прогнозом (регрессия) отдельных деревьев

Шаги

Здесь мы берем обучающие данные, а затем создаем из них загружаемые наборы данных. Взгляните на изображение ниже, чтобы лучше понять это.

Итак, мы взяли полный набор данных, а затем разделили его на несколько частей. Помните, что примеры можно повторять в разных образцах начальной загрузки.
Затем мы берем эти загруженные образцы и используем их для построения нескольких деревьев решений. Создаваемые деревья решений будут вести себя по-разному, поскольку они созданы с использованием разных образцов.
Разнообразие, которое мы получаем, создавая несколько деревьев решений, делает его более эффективным, чем отдельные деревья решений.

Как мы их теперь используем?

Теперь мы создали наше дерево решений, как нам его оценить или использовать для прогнозирования.
Для оценки проделаем следующий трюк. Большая часть данных из обучающего набора не попадает в набор данных начальной загрузки. Он называется «набором данных вне сумки», и мы можем использовать его для оценки случайного леса.
Мы берем пример и затем передаем его другому дереву решений. Если это задача регрессии, мы берем среднее значение вывода. Если это задача классификации, мы даем результат как тот, который предсказывается большинством деревьев.
Доля образцов вне сумки, которые были неправильно классифицированы, называется «ошибкой вне сумки».

Техника упаковки

Бэггинг - это техника, которую использует случайный лес.
Пакетирование можно охарактеризовать как начальную загрузку, за которой следует этап агрегации.
В случайном лесу мы применяем эту технику упаковки, сначала загружая набор данных для создания нескольких деревьев решений, а затем агрегируя их результаты, чтобы получить окончательный результат.

Плюсы случайного леса

Случайные леса устойчивы к выбросам, поскольку они усредняются путем агрегирования нескольких выходных деревьев.
Он действительно хорошо работает с нелинейными данными.
Риск переобучения невелик, поскольку результаты рассчитываются на основе выходных данных нескольких деревьев решений.

Надеюсь, эта статья даст вам лучшее представление о том, как работают случайные леса.

А пока желаю удачи !!!

Поговорим о случайных лесах!

Шаги

Вопросы по теме