比较变量并删除一个具有最低值R的变量_R_Correlation_Random Forest_R Caret

比较变量并删除一个具有最低值R的变量

比较变量并删除一个具有最低值R的变量,r,correlation,random-forest,r-caret,R,Correlation,Random Forest,R Caret,我有一个45个变量之间相关性的数据框架，并添加了“varImp”函数给每个变量的随机森林重要性值。我用这些数据运行了一个随机森林训练模型我想遍历每一列，如果某个变量的绝对相关性超过.8，则删除该行变量或该列变量，以“varImp”重要性较低的为准。我还想从列/行中删除相同的变量，因为它是一个相关矩阵，所有变量都显示在一行和一列中例如，roll_传送带和max_pitch_传送带的相关性为~.97，因为roll_传送带的值为3.77，而max_pitch_传送带的值为3.16，所以我想删除ma

我有一个45个变量之间相关性的数据框架，并添加了“varImp”函数给每个变量的随机森林重要性值。我用这些数据运行了一个随机森林训练模型

我想遍历每一列，如果某个变量的绝对相关性超过.8，则删除该行变量或该列变量，以“varImp”重要性较低的为准。我还想从列/行中删除相同的变量，因为它是一个相关矩阵，所有变量都显示在一行和一列中

例如，roll_传送带和max_pitch_传送带的相关性为~.97，因为roll_传送带的值为3.77，而max_pitch_传送带的值为3.16，所以我想删除max_pitch_传送带的行和列

谢谢你的帮助

我相信一定有更直接的方法。尽管如此，我的代码还是起到了作用

假设，我们已将数据集加载到名为df I的对象中，但没有包含获取数据的代码，因为它与数据无关

首先，我可以方便地拆分数据本身和用于测试特性重要性的值列。名为test.value的新对象是第46列

test.value <- df$value
df <- df[,-ncol(df)] # remove the last column from the dataset

就这样

更新对于那些能够提供更好解决方案的人，以下是易于阅读的数据，或如果您喜欢dput

我很想找到更好的方法来解决这项任务。

这听起来是一份适合申请的工作，但你贴的图片毫无用处。请发布一段数据的dput，而不是图片。请添加您的实际数据并显示所需的输出。很抱歉，这是一个数据的google文档：请放置数据的dput，以便人们可以以最少的麻烦获得数据。所需的输出将类似于此google dog：谢谢帮助，对不起，如果我把这篇文章写得不好/没有正确地包括数据。虽然我做了一些编辑，但您的代码仍然有效。因为它是一个相关矩阵，所有的东西都会有100%的相关性，所以我把“highcori”的定义改为highcori=.8&coli！=1、正确、错误和添加的ifi=在这里，如果=k{remi检验值[posi[k]]，posi[k]，我删除了合理的改进。抱歉，当我更改NAs的所有自相关性时，我忘了在答案中包含步骤。这就是我所做的。当然，像ifcoli>=.8&coli！=1这样的条件作用更有意义。请注意，您不需要ifelse，因为coli>=.8&coli！=1只生成所需的输出。

remove <- c() # a vector to store features to be removed
for(i in 1:ncol(df)){
        coli <- df[,i] # pick up i-th column
        highcori <- coli>.8 & coli!=1 # logical vector of cors > 0.8

        # go further only if there are cors > 0.8
        if(sum(highcori,na.rm = T)>0){

        posi <- which(highcori) # identify positions of cors > 0.8

        # compare feature importance one by one
        for(k in 1:length(posi)){
                remi <- ifelse(test.value[i]>test.value[posi[k]],posi[k],i)
                remove <- c(remove,remi) # store the less valued feature 
                }
        }

}

remove <- sort(unique(remove)) # keep only unique entries

df.clean <- df[-remove,-remove] # finally, clean the dataset