В моей предыдущей статье мы обсуждали алгоритм дерево решений. Хотя дерево решений - очень крутой интуитивно понятный алгоритм, оно несет в себе проклятие переобучения. В этой статье мы опираемся на идею дерева решений и узнаем об алгоритме случайного леса, который широко используется в мире машинного обучения.
Алгоритм случайного леса
- Согласно Википедии
Случайные леса или случайные леса решений - это метод ансамблевого обучения для классификации, регрессии и других задач, который работает путем построения множества деревьев решений во время обучения. время и вывод класса, который является режимом классов (классификация) или средним / средним прогнозом (регрессия) отдельных деревьев
Шаги
- Здесь мы берем обучающие данные, а затем создаем из них загружаемые наборы данных. Взгляните на изображение ниже, чтобы лучше понять это.
- Итак, мы взяли полный набор данных, а затем разделили его на несколько частей. Помните, что примеры можно повторять в разных образцах начальной загрузки.
- Затем мы берем эти загруженные образцы и используем их для построения нескольких деревьев решений. Создаваемые деревья решений будут вести себя по-разному, поскольку они созданы с использованием разных образцов.
- Разнообразие, которое мы получаем, создавая несколько деревьев решений, делает его более эффективным, чем отдельные деревья решений.
Как мы их теперь используем?
- Теперь мы создали наше дерево решений, как нам его оценить или использовать для прогнозирования.
- Для оценки проделаем следующий трюк. Большая часть данных из обучающего набора не попадает в набор данных начальной загрузки. Он называется «набором данных вне сумки», и мы можем использовать его для оценки случайного леса.
- Мы берем пример и затем передаем его другому дереву решений. Если это задача регрессии, мы берем среднее значение вывода. Если это задача классификации, мы даем результат как тот, который предсказывается большинством деревьев.
- Доля образцов вне сумки, которые были неправильно классифицированы, называется «ошибкой вне сумки».
Техника упаковки
- Бэггинг - это техника, которую использует случайный лес.
- Пакетирование можно охарактеризовать как начальную загрузку, за которой следует этап агрегации.
- В случайном лесу мы применяем эту технику упаковки, сначала загружая набор данных для создания нескольких деревьев решений, а затем агрегируя их результаты, чтобы получить окончательный результат.
Плюсы случайного леса
- Случайные леса устойчивы к выбросам, поскольку они усредняются путем агрегирования нескольких выходных деревьев.
- Он действительно хорошо работает с нелинейными данными.
- Риск переобучения невелик, поскольку результаты рассчитываются на основе выходных данных нескольких деревьев решений.
Надеюсь, эта статья даст вам лучшее представление о том, как работают случайные леса.
А пока желаю удачи !!!