Machine learning 随机林：%IncMSE和%NodePurity之间不匹配_Machine Learning_Random Forest

Machine learning 随机林：%IncMSE和%NodePurity之间不匹配

machine-learning

Machine learning 随机林：%IncMSE和%NodePurity之间不匹配,machine-learning,random-forest,Machine Learning,Random Forest,我在一个相当小的数据集（即11个变量的28个obs）上对100000棵分类树进行了随机森林分析然后我画了一幅重要性可变的图在结果图中，至少一个重要变量的%IncMSE和IncNodePurity之间存在严重不匹配。事实上，变量在前者中的重要性排名第七（即%IncMSE），第一张图显示，如果通过随机排列为变量赋值，则MSE将增加多少。值越高，变量的重要性越高另一方面，节点纯度由基尼指数衡量，基尼指数是该变量分割前后RSS之间的差值由于变量重要性标准的概念在两种情况下是不同的，因此对于不同的

我在一个相当小的数据集（即11个变量的28个obs）上对100000棵分类树进行了随机森林分析

然后我画了一幅重要性可变的图

在结果图中，至少一个重要变量的%IncMSE和IncNodePurity之间存在严重不匹配。事实上，变量在前者中的重要性排名第七（即%IncMSE），第一张图显示，如果通过随机排列为变量赋值，则MSE将增加多少。值越高，变量的重要性越高

另一方面，节点纯度由基尼指数衡量，基尼指数是该变量分割前后RSS之间的差值

由于变量重要性标准的概念在两种情况下是不同的，因此对于不同的变量有不同的排名

没有固定的标准来选择可变重要性的“最佳”度量，这取决于您手头的问题