Видеть лес за деревьями: введение в случайный лес

Случайные леса довольно аккуратные. Они используют ансамблевое обучение, чтобы использовать то, что обычно считается слабым учеником (дерево решений), для создания более сильного и надежного метода моделирования.

Случайные модели леса состоят из деревьев решений, поэтому важно убедиться, что вы разбираетесь в деревьях, прежде чем браться за лес. Если вам нужно освежить в памяти деревья решений, найдите время и ознакомьтесь с Посадкой семян - Введение в деревья решений.

Как вы, возможно, знаете, два основных ограничения деревьев решений состоят в том, что они склонны к переоснащению и имеют тенденцию быть ненадежными, что означает, что небольшое изменение данных обучения приводит к совершенно другому дереву. Модели случайного леса преодолевают эти два недостатка деревьев решений, генерируя множество деревьев решений, а затем объединяя прогнозы каждого отдельного дерева в один прогноз модели.

Создание и последующее объединение результатов нескольких деревьев решений кажется довольно простым, однако простое создание нескольких деревьев из одних и тех же обучающих данных не будет продуктивным - это приведет к серии сильно коррелированных деревьев. Все эти деревья будут сортировать данные одинаково, поэтому у этого метода не будет преимуществ перед одним деревом решений. Здесь вступает в игру причудливая часть случайных лесов. Чтобы декоррелировать деревья, составляющие случайный лес, выполняется процесс, называемый агрегатирование начальной загрузки (также известное как упаковка). Bagging генерирует новые наборы обучающих данных из исходного набора данных путем выборки исходных обучающих данных с заменой (бутстрэппинг). Это повторяется для такого количества деревьев решений, которые составляют случайный лес. Затем каждый индивидуальный набор загружаемых данных используется для построения дерева. Этот процесс эффективно уменьшает дисперсию (ошибку, вызванную случайным шумом в обучающих данных, т. Е. Переобучением) модели без увеличения смещения (недостаточной подгонки). Само по себе объединение обучающих данных для генерации нескольких деревьев создает так называемую модель пакетированных деревьев.

Аналогичный процесс, называемый методом случайного подпространства (также называемый набором атрибутов или набором функций), также реализуется для создания модели случайного леса. Для каждого дерева выбирается подмножество возможных переменных-предикторов, в результате чего для каждого дерева выбирается меньший набор переменных-предикторов. Это дополнительно декоррелирует деревья, препятствуя тому, чтобы доминирующие переменные-предикторы были первыми или единственными переменными, выбранными для создания разбиений в каждом из отдельных деревьев решений. Без реализации метода случайного подпространства существует риск того, что одна или две доминирующие переменные-предикторы будут последовательно выбраны в качестве первой переменной разделения для каждого дерева решений, и результирующие деревья будут сильно коррелированы. Комбинация мешков и метода случайных подпространств приводит к модели случайного леса.

Агрегирующая часть агрегирования начальной загрузки происходит из комбинирования предсказаний каждого из этих деревьев решений для определения общего предсказания модели. Результатом всей модели является режим классов (классификация) или среднее предсказание (регрессия) всех предсказаний отдельных деревьев для каждой отдельной записи.

В этом случае запись, подключенная к (упрощенной) модели случайного леса, была классифицирована как разноцветная в большинстве деревьев (2/3), поэтому случайный лес классифицирует запись как разноцветную.

Есть еще пара компонентов случайного леса, которые важно выделить.

Ошибка "Нет из сумки"

Пакетирование фактически приводит к тому, что около 1/3 исходных обучающих данных исключается из каждого отдельного дерева решений. Эти исключенные данные называются наблюдениями вне сумки (OOB). Этот эффект был использован для создания оценок ошибок Out of Bag (OOB), которые можно использовать вместо показателей перекрестной проверки.

Ошибка "вне пакета" рассчитывается путем прогона записей по каждому дереву решений, для которого они не были частью обучающих данных, а затем объединения этих результатов в один прогноз. Прогноз OOB может быть определен для всех обучающих записей, что означает, что можно вычислить общую OOB MSE и использовать ее в качестве коэффициента ошибок модели.

Важность переменной

Еще одна интересная особенность случайных лесов заключается в том, что во время их реализации важность прогнозирующей переменной вычисляется путем использования важности Джини, которая используется для определения узлов отдельных деревьев решений для генерации среднего уменьшения примесей (MDI).

MDI - это среднее (среднее) общее уменьшение примеси узлов переменной, взвешенное по доле выборок, достигающих этого узла в каждом отдельном дереве решений в случайном лесу. Каждая переменная-предиктор, используемая для создания модели случайного леса, имеет результирующее значение MDI, которое используется для ранжирования важности переменной для модели. Более высокое среднее снижение индекса Джини указывает на более высокую важность переменной.

Ограничения случайного леса

То, что случайные леса выигрывают по сравнению с деревьями решений с точки зрения устойчивости модели, теряется в интерпретируемости и доступности. В дереве решений вы можете увидеть отдельные разбиения переменных и пороговые значения, используемые для сортировки целевой переменной. Это невозможно в случайном лесу, где сотни деревьев объединяются для создания оценки. Поскольку они менее доступны и легко интерпретируются, случайные модели леса часто рассматриваются как черные ящики.

Сильные стороны

Случайные леса обладают многими из тех же сильных сторон, что и деревья решений, из которых они состоят. Их можно применять к категориальным или непрерывным целевым переменным, и они могут обрабатывать несбалансированные наборы данных, выбросы и нелинейные отношения. В дополнение к этим сильным сторонам случайные леса, как правило, имеют гораздо лучшую предсказательную силу, чем одно дерево решений, и менее склонны к переобучению. Случайные модели леса, как правило, очень хорошо подходят для оценки категориальных данных.

Вкратце…

Случайный лес - это ансамблевый метод машинного обучения, который использует индивидуальную предсказательную силу деревьев решений путем создания нескольких деревьев решений и последующего объединения деревьев в единую модель путем агрегирования прогнозов отдельных деревьев. Случайные леса более устойчивы и, как правило, обладают большей предсказательной способностью, чем дерево решений. Однако они также более непрозрачны и могут показаться более устрашающими. Надеюсь, эта статья позволила вам увидеть лес для деревьев (решений) и показала, насколько аккуратны случайные леса.

Оригинал. Размещено с разрешения.

Видеть лес за деревьями: введение в случайный лес

Вопросы по теме