Я хочу проверить, какая переменная больше всего влияет на результат в моих данных, то есть на доходность акций. Мои данные, как показано ниже.
И мой код тоже прилагается.
library(randomForest)
require(data.table)
data = fread("C:/stockcrazy.csv")
PEratio <- data$offeringPE/data$industryPE
data_update <- data.frame(data,PEratio)
train <- data_update[1:47,]
test <- data_update[48:57,]
Для приведенного выше набора данных для обучения и тестирования я не уверен, нужно ли мне выполнять перекрестную проверку этих данных. И я не знаю, как это сделать.
data.model <- randomForest(yield ~ offerings + offerprice + PEratio + count + bingo
+ purchase , data=train, importance=TRUE)
par(mfrow = c(1, 1))
varImpPlot(data.model, n.var = 6, main = "Random Forests: Top 6 Important Variables")
importance(data.model)
plot(data.model)
model.pred <- predict(data.model, newdata=test)
model.pred
d <- data.frame(test,model.pred)
Я не уверен, что результат IncMSE хорош или плох. Кто-нибудь может это интерпретировать?
Кроме того, я обнаружил, что предсказанные значения тестовых данных не являются хорошим предсказанием реальных данных. Итак, как я могу улучшить это?