Два наиболее часто используемых алгоритма машинного обучения - это деревья решений с произвольным лесом и градиентным усилением (GBDT). Обе модели являются ансамблевыми, что означает, что они объединяют множество слабых учеников, чтобы получить сильного.

Хотя как случайный лес, так и GBDT используют одного и того же слабого обучающегося, это очень разные алгоритмы. В этой статье мы сосредоточимся на трех основных различиях между этими ансамблевыми методами.

Деревья решений используются в качестве слабого обучаемого в обоих алгоритмах. Дерево решений строится на итеративном задании вопросов для разделения данных. Он ищет шаблоны и структуры в данных и разбивает точки данных на их основе.

Мы не будем вдаваться в подробности того, как работает дерево решений. Вместо этого основное внимание уделяется тому, что отличает случайный лес от GBDT. Таким образом, я предполагаю, что у вас есть базовый уровень понимания этих алгоритмов.

Бэггинг vs бустинг

Основное различие между случайным лесом и GBDT заключается в том, как они объединяют деревья решений.

Случайный лес строится с использованием метода, называемого бэггинг, в котором каждое дерево решений используется в качестве параллельного оценщика. Каждое дерево решений соответствует подвыборке, взятой из всего набора данных.

В случае задачи классификации общий результат определяется большинством голосов среди результатов всех деревьев решений. Для задач регрессии общий результат рассчитывается как среднее значение всех прогнозов.

GBDT использует метод ускорения для создания ансамбля учащихся. Деревья решений подключаются последовательно (т. Е. Последовательно), чтобы получить сильного ученика. Деревья решений в GBDT не подходят для всего набора данных.

Цель состоит в том, чтобы минимизировать ошибки предыдущего дерева. Таким образом, каждое дерево соответствует остаткам от предыдущего. В результате общая точность и надежность модели постепенно повышаются.

Начальная загрузка

Самостоятельная загрузка - это понятие в статистике. По сути, это означает выбор случайной выборки из данных. Каждый образец называется образцом начальной загрузки.

В случайном лесу, если мы не используем начальную загрузку, каждое дерево решений подходит для всего набора данных. В результате мы можем применить один и тот же алгоритм к одному и тому же набору данных. Это не имеет смысла, потому что мы будем повторять одно и то же и ожидать лучшей производительности.

Успех модели случайного леса во многом зависит от использования некоррелированных деревьев решений. Если мы используем одинаковые или очень похожие деревья решений, общий результат не будет сильно отличаться от результата одного дерева решений. Самостоятельная загрузка играет ключевую роль в создании некоррелированных деревьев решений.

GBDT не использует и не требует начальной загрузки. Поскольку каждое дерево решений соответствует остаткам от предыдущего, нам не нужно беспокоиться о наличии коррелированных деревьев.

Общая модель постепенно улучшается за счет добавления новых деревьев. Направленность каждого дерева разная. Таким образом, нет необходимости создавать подвыборки из набора данных.

Переоснащение

Переобучение - критическая проблема в машинном обучении. Какой бы алгоритм вы ни использовали, есть риск переобучения. Таким образом, это можно рассматривать как узкое место в машинном обучении.

Переобучение происходит, когда модель слишком хорошо подходит для обучающих данных. В результате он фиксирует ненужные детали в обучающих данных и не может быть обобщен на весь набор данных.

Поскольку и случайный лес, и GBDT являются ансамблевыми моделями, количество деревьев решений, используемых в модели, кажется критическим параметром, связанным с переобучением.

Однако влияние этого параметра сильно различается для случайного леса и GBDT. Увеличение количества деревьев в случайном лесу не приводит к переобучению.

Спустя какое-то время точность модели не увеличивается за счет добавления дополнительных деревьев. На это также не влияет добавление лишних деревьев. Вы по-прежнему не хотите добавлять ненужное количество деревьев по вычислительным причинам, но нет риска переобучения, связанного с количеством деревьев в случайном лесу.

Однако количество деревьев в GBDT имеет решающее значение с точки зрения переобучения. Поскольку каждое дополнительное дерево соответствует остаткам от предыдущего, в центре внимания новых деревьев после некоторой точки становятся детали.

Мы ожидаем, что в какой-то момент у нас появится обобщенная модель. После этого каждое добавление покрывает деталь или шум в обучающих данных. Таким образом, добавление слишком большого количества деревьев в GBDT приведет к переобучению.

Заключение

И случайный лес, и GBDT - очень эффективные алгоритмы. Их можно использовать для решения задач классификации и регрессии. В заключение я хотел бы привести две цифры, которые резюмируют, как работают эти алгоритмы.

Спасибо за чтение. Пожалуйста, дайте мне знать, если у вас есть какие-либо отзывы.