R 为什么预测因子的随机森林排序在OOB错误率中很重要?

R 为什么预测因子的随机森林排序在OOB错误率中很重要?,r,random-forest,modeling,R,Random Forest,Modeling,我只是想了解一下为什么随机森林中的预测因子顺序会影响OOB估计。我想我可能知道答案,但不确定。我猜这与树的构建方式有关(从第一个预测器开始,在第二个预测器的基础上分支,依此类推)。 例如,在泰坦尼克号数据集中,我创建了以下随机森林: rf.train.9 <- titanic.full[1:891, c("Pclass", "Age", "Fare", "FamSize", "Sex")] rf.label <- as.factor(train$Survived) set.seed

我只是想了解一下为什么随机森林中的预测因子顺序会影响OOB估计。我想我可能知道答案,但不确定。我猜这与树的构建方式有关(从第一个预测器开始,在第二个预测器的基础上分支,依此类推)。 例如,在泰坦尼克号数据集中,我创建了以下随机森林:

rf.train.9 <- titanic.full[1:891, c("Pclass", "Age", "Fare", "FamSize", "Sex")]
rf.label <- as.factor(train$Survived)

set.seed(1234)
rf.9 <- randomForest(x = rf.train.9, y = rf.label, importance = TRUE, ntree = 1000)
rf.9

rf.train.9我认为您的代码中有一个输入错误,因为
Pclass
在两个示例中都是第一个出现的。我的错。谢谢,现在已经修复了。
rf.train.9 <- titanic.full[1:891, c( "Age", "Fare", "FamSize", "Sex", "Pclass")]
rf.label <- as.factor(train$Survived)

set.seed(1234)
rf.9 <- randomForest(x = rf.train.9, y = rf.label, importance = TRUE, ntree = 1000)
rf.9