Каковы параметры случайного леса?

Алгоритм случайного леса (RF) был впервые представлен Брейнманом в 2001 году. Теперь он стал стандартным инструментом для прогнозирования данных без каких-либо предварительных предположений о функциях и метках. Чтобы повысить производительность вашей модели случайного леса, вам необходимо настроить набор гиперпараметров, который включает:

  1. структура каждого отдельного дерева (например, минимальный размер узла, который должен быть разделен)
  2. структура леса (например, количество деревьев)
  3. его уровень случайности.

Разработчики могут добиться наибольшего улучшения своей модели, настроив структуру каждого отдельного дерева (также известного как mtry). Они могут добиться средних улучшений за счет настройки размера выборки и меньшего улучшения за счет настройки размера узла.

Улучшение параметра mtry

Параметр для изменения структуры каждого отдельного дерева, mtry, определяется как количество случайно выбранных переменных-кандидатов, из которых выбирается каждое разделение при выращивании дерева.

Меньшие значения mtry могут привести к большему количеству различных и менее коррелированных деревьев. Они также могут лучше использовать переменные с умеренным влиянием на переменную отклика, которые в противном случае были бы замаскированы переменными с сильным влиянием. В среднем они работают хуже, поскольку иногда вы получаете неоптимальные переменные. Если есть много релевантных переменных, мы рекомендуем выбрать низкую метрику. Это может помочь не только выбрать более сильные переменные в разбиениях, но и менее влиятельные, которые могут быть полезны для прогнозирования небольших групп наблюдений.

Если mtry велико, менее влиятельные переменные могут не повлиять на прогноз, поскольку более сильные переменные могут маскировать меньшие эффекты. Однако, если релевантных переменных мало, большой вход может быть хорошим выбором.

Чтобы изменить эти параметры для набора данных, в статье исследуется поиск по сетке, случайный поиск и последовательная оптимизация на основе моделей (SMBO). Из этих трех методов они рекомендуют использовать SMBO. Этот метод работает, итеративно пытаясь найти лучшие гиперпараметры на основе оценки гиперпараметров, которые использовались заранее. Он основан на «литературе по оптимизации функций черного ящика». Есть пакет R под названием mlrMBO, который помогает его использовать.

Для оценки производительности алгоритма авторы рекомендуют использовать либо k-кратную перекрестную проверку, либо метод наблюдения «из коробки». Оценка его на основе метода «из коробки» может быть быстрее. Метрика оценки будет зависеть от проблемы, однако двумя наиболее часто используемыми методами классификации являются частота ошибок классификации и площадь под кривой (AUC).

Таким образом, настройка моделей случайного леса может улучшить их производительность, хотя эффект от настройки намного меньше, чем для других алгоритмов (таких как машины опорных векторов). Они рекомендуют использовать SMBO для настройки алгоритма, а затем использовать готовый метод для оценки каждой итерации алгоритма настройки.

Ссылки