Я отлаживаю код с помощью пакета Random Forest, практически не имея опыта работы с R.
Я достиг точки, когда, выполняя predict.randomForest
, я получаю сообщение об ошибке:
Новые уровни факторов, отсутствующие в обучающих данных.
Поискав на этом сайте, я нашел причину и понял, что мне нужно удалить записи, которые вызывают проблему.
Как я могу изолировать (выяснить), какие столбцы/строки вызывают проблемы?
str(X)
, гдеX
— это матрица предикторов в ваших обучающих данных. Затем сделайте то же самое в своих тестовых данных и посмотрите на вывод, чтобы увидеть, какие из них имеют разные числа или наборы уровней. - person ulfelder   schedule 13.08.2015