R 克服随机森林回归中的多重共线性,保持模型中所有变量不变

R 克服随机森林回归中的多重共线性,保持模型中所有变量不变,r,correlation,random-forest,R,Correlation,Random Forest,我不熟悉随机森林回归。我在prep1中有300个连续变量(299个预测值和1个目标值),其中一些预测值高度相关。问题是,我仍然需要获得每个预测值的重要性值,,因此排除一些预测值不是一个选项 以下是我的问题: 1) 是否有一种方法可以为每个树只选择不高度相关的变量,如果有,下面的代码应该如何调整 2) 假设1)为“是”,这会解决多重共线问题吗 bound <- floor(nrow(prep1)/2) df <- prep1[sample(nrow(prep1

我不熟悉随机森林回归。我在prep1中有300个连续变量(299个预测值和1个目标值),其中一些预测值高度相关。问题是,我仍然需要获得每个预测值的重要性值,因此排除一些预测值不是一个选项

以下是我的问题:

1) 是否有一种方法可以为每个树只选择不高度相关的变量,如果有,下面的代码应该如何调整

2) 假设1)为“是”,这会解决多重共线问题吗

  bound <- floor(nrow(prep1)/2)         
  df <- prep1[sample(nrow(prep1)), ]            
  train <- df[1:bound, ]             
  test <- df[(bound+1):nrow(df), ]    
  modelFit <- randomForest(continuous_target ~., data = train)
  prediction <- predict(modelFit, test)  

boundRandom-Forest具有选择替换样本以及随机选择这些样本上的特征子集的性质。根据您的场景,假设响应变量中没有偏斜,构建大量树应该会使您对所有变量都具有重要性。虽然这会增加计算复杂度,因为对于每个包,您要多次捕获相同的重要性。同时,多重共线性不会影响预测能力

射频的主要优点之一是它们(大部分)不受多重共线性的影响。最初的论文对此进行了详细讨论,但本UCLA/UCM课堂讲稿应该更简洁地解释,请参见第4节和第4.1节@Hack-R谢谢你的链接,这对我来说是个好消息。我在某个地方读到,当RF中有相关变量时,它会增加计算时间。这是正确的吗?