Какая мера используется для оценки важности в случайном лесу воды?

Вот мой код:

set.seed(1)

#Boruta on the HouseVotes84 data from mlbench
library(mlbench) #has HouseVotes84 data
library(h2o)     #has rf

#spin up h2o
myh20 <- h2o.init(nthreads = -1)

#read in data, throw some away
data(HouseVotes84)
hvo <- na.omit(HouseVotes84)

#move from R to h2o
mydata <- as.h2o(x=hvo,
                 destination_frame= "mydata")

#RF columns (input vs. output)
idxy <- 1
idxx <- 2:ncol(hvo)

#split data
splits <- h2o.splitFrame(mydata,           
                         c(0.8,0.1))     

train <- h2o.assign(splits[[1]], key="train")   
valid <- h2o.assign(splits[[2]], key="valid") 

# make random forest
my_imp.rf<- h2o.randomForest(y=idxy,x=idxx,
                      training_frame = train,
                      validation_frame = valid,
                      model_id = "my_imp.rf",
                      ntrees=200)

# find importance
my_varimp <- h2o.varimp(my_imp.rf)
my_varimp

Я получаю «переменную важность».

Классическими показателями являются «среднее снижение точности» и «среднее снижение коэффициента Джини».

Мои результаты:

> my_varimp
Variable Importances: 
   variable relative_importance scaled_importance percentage
1        V4         3255.193604          1.000000   0.410574
2        V5         1131.646484          0.347643   0.142733
3        V3          921.106567          0.282965   0.116178
4       V12          759.443176          0.233302   0.095788
5       V14          492.264954          0.151224   0.062089
6        V8          342.811554          0.105312   0.043238
7       V11          205.392654          0.063097   0.025906
8        V9          191.110046          0.058709   0.024105
9        V7          169.117676          0.051953   0.021331
10      V15          135.097076          0.041502   0.017040
11      V13          114.906586          0.035299   0.014493
12       V2           51.939777          0.015956   0.006551
13      V10           46.716656          0.014351   0.005892
14       V6           44.336708          0.013620   0.005592
15      V16           34.779987          0.010684   0.004387
16       V1           32.528778          0.009993   0.004103

Исходя из этого, моя относительная важность "Vote # 4", также известного как V4, составляет ~ 3255,2.

Вопросы: В каких единицах это? Как это получено?

Я пытался поискать в документации, но не нашел ответа. Я пробовал справочную документацию. Я попытался использовать Flow, чтобы посмотреть на параметры, чтобы увидеть, указывает ли что-нибудь на это. Ни в одном из них я не обнаружил «Джини» или «снижение точности». Где мне искать?


person EngrStudent    schedule 15.03.2016    source источник


Ответы (1)


Ответ находится в документации.

[На левой панели щелкните «Алгоритмы», затем «Контролируемые», затем «DRF». Раздел FAQ отвечает на этот вопрос. ]

Для удобства здесь же скопирован и вставлен ответ:

«Как рассчитывается важность переменной для DRF? Важность переменной определяется путем вычисления относительного влияния каждой переменной: была ли эта переменная выбрана во время разделения в процессе построения дерева и насколько в результате улучшилась квадратичная ошибка (по всем деревьям). "

person Erin LeDell    schedule 15.03.2016
comment
Я думаю, вы указываете на то, где написано Важность переменной определяется путем вычисления относительного влияния каждой переменной: была ли эта переменная выбрана во время разбиения в процессе построения дерева и насколько улучшилась квадратичная ошибка (по всем деревьям) по мере того, как результат. Это не Джини или снижение точности. Есть ли уравнение, ссылка на статью или псевдокод? Я обнаружил, что поведение очень отличается от вывода библиотеки R 'Boruta' для RF. - person EngrStudent; 16.03.2016
comment
Мы используем один и тот же древовидный код в наших GBM и RF, поэтому используемое базовое уравнение одинаково в обоих (хотя алгоритмы работают по-разному, поэтому окончательные значения важности GBM и RF будут разными). Ссылка - уравнение 45 в этой статье: statweb.stanford.edu/~jhf/ftp /trebst.pdf - person Erin LeDell; 18.03.2016
comment
Люблю жадные приближения. Важность будет столь же принципиально иной, как GBM от РФ. Спасибо. - person EngrStudent; 18.03.2016
comment
@EngrStudent Я что-то упустил? Потому что я не вижу ответа на ваш вопрос. Ответ SO относится к квадрату ошибки и то же самое для соответствующего раздела связанной статьи. Но ваш вопрос касался проблемы классификации. - person cryo111; 11.12.2017
comment
Эрин указала на это в комментарии. Думаю, оттуда я смог добраться туда, где мне было нужно. Это было почти 2 года назад, так что у меня это не сработало. - person EngrStudent; 11.12.2017
comment
Я попытался воспроизвести числа, но не смог, см. Мой пост на stats.stackexchange.com: stats.stackexchange.com/questions/318227/ - person cryo111; 11.12.2017