Какая мера используется для оценки важности в случайном лесу воды?

Вот мой код:

set.seed(1)

#Boruta on the HouseVotes84 data from mlbench
library(mlbench) #has HouseVotes84 data
library(h2o)     #has rf

#spin up h2o
myh20 <- h2o.init(nthreads = -1)

#read in data, throw some away
data(HouseVotes84)
hvo <- na.omit(HouseVotes84)

#move from R to h2o
mydata <- as.h2o(x=hvo,
                 destination_frame= "mydata")

#RF columns (input vs. output)
idxy <- 1
idxx <- 2:ncol(hvo)

#split data
splits <- h2o.splitFrame(mydata,           
                         c(0.8,0.1))     

train <- h2o.assign(splits[[1]], key="train")   
valid <- h2o.assign(splits[[2]], key="valid") 

# make random forest
my_imp.rf<- h2o.randomForest(y=idxy,x=idxx,
                      training_frame = train,
                      validation_frame = valid,
                      model_id = "my_imp.rf",
                      ntrees=200)

# find importance
my_varimp <- h2o.varimp(my_imp.rf)
my_varimp

Я получаю «переменную важность».

Классическими показателями являются «среднее снижение точности» и «среднее снижение коэффициента Джини».

Мои результаты:

> my_varimp
Variable Importances: 
   variable relative_importance scaled_importance percentage
1        V4         3255.193604          1.000000   0.410574
2        V5         1131.646484          0.347643   0.142733
3        V3          921.106567          0.282965   0.116178
4       V12          759.443176          0.233302   0.095788
5       V14          492.264954          0.151224   0.062089
6        V8          342.811554          0.105312   0.043238
7       V11          205.392654          0.063097   0.025906
8        V9          191.110046          0.058709   0.024105
9        V7          169.117676          0.051953   0.021331
10      V15          135.097076          0.041502   0.017040
11      V13          114.906586          0.035299   0.014493
12       V2           51.939777          0.015956   0.006551
13      V10           46.716656          0.014351   0.005892
14       V6           44.336708          0.013620   0.005592
15      V16           34.779987          0.010684   0.004387
16       V1           32.528778          0.009993   0.004103

Исходя из этого, моя относительная важность "Vote # 4", также известного как V4, составляет ~ 3255,2.

Вопросы: В каких единицах это? Как это получено?

Я пытался поискать в документации, но не нашел ответа. Я пробовал справочную документацию. Я попытался использовать Flow, чтобы посмотреть на параметры, чтобы увидеть, указывает ли что-нибудь на это. Ни в одном из них я не обнаружил «Джини» или «снижение точности». Где мне искать?

h2o random-forest gini

EngrStudent 15.03.2016 источник

Ответы (1)

arrow_upward
6
arrow_downward

Ответ находится в документации.

[На левой панели щелкните «Алгоритмы», затем «Контролируемые», затем «DRF». Раздел FAQ отвечает на этот вопрос. ]

Для удобства здесь же скопирован и вставлен ответ:

«Как рассчитывается важность переменной для DRF? Важность переменной определяется путем вычисления относительного влияния каждой переменной: была ли эта переменная выбрана во время разделения в процессе построения дерева и насколько в результате улучшилась квадратичная ошибка (по всем деревьям). "

Erin LeDell 15.03.2016

comment

Я думаю, вы указываете на то, где написано Важность переменной определяется путем вычисления относительного влияния каждой переменной: была ли эта переменная выбрана во время разбиения в процессе построения дерева и насколько улучшилась квадратичная ошибка (по всем деревьям) по мере того, как результат. Это не Джини или снижение точности. Есть ли уравнение, ссылка на статью или псевдокод? Я обнаружил, что поведение очень отличается от вывода библиотеки R 'Boruta' для RF. - EngrStudent; 16.03.2016

comment

Мы используем один и тот же древовидный код в наших GBM и RF, поэтому используемое базовое уравнение одинаково в обоих (хотя алгоритмы работают по-разному, поэтому окончательные значения важности GBM и RF будут разными). Ссылка - уравнение 45 в этой статье: statweb.stanford.edu/~jhf/ftp /trebst.pdf - Erin LeDell; 18.03.2016

comment

Люблю жадные приближения. Важность будет столь же принципиально иной, как GBM от РФ. Спасибо. - EngrStudent; 18.03.2016

comment

@EngrStudent Я что-то упустил? Потому что я не вижу ответа на ваш вопрос. Ответ SO относится к квадрату ошибки и то же самое для соответствующего раздела связанной статьи. Но ваш вопрос касался проблемы классификации. - cryo111; 11.12.2017

comment

Эрин указала на это в комментарии. Думаю, оттуда я смог добраться туда, где мне было нужно. Это было почти 2 года назад, так что у меня это не сработало. - EngrStudent; 11.12.2017

comment

Я попытался воспроизвести числа, но не смог, см. Мой пост на stats.stackexchange.com: stats.stackexchange.com/questions/318227/ - cryo111; 11.12.2017

Какая мера используется для оценки важности в случайном лесу воды?

Ответы (1)

Вопросы по теме