R随机森林变量重要性

R随机森林变量重要性,r,statistics,data-mining,random-forest,R,Statistics,Data Mining,Random Forest,我试图使用随机森林软件包在R中进行分类 列出的可变重要性度量为: 0类变量x的平均原始重要性分数 第1类变量x的平均原始重要性分数 平均精度降低 mean decreaseGini 现在我知道这些“意思”了,因为我知道它们的定义。我想知道的是如何使用它们 我真正想知道的是,这些值仅在准确度方面意味着什么,什么是好值,什么是坏值,什么是最大值和最小值,等等 如果一个变量的均值递减精度高或均值递减基尼是否意味着它是重要的还是不重要的?此外,关于原始分数的任何信息也可能有用。 我想知道关于这些数字

我试图使用随机森林软件包在R中进行分类

列出的可变重要性度量为:

  • 0类变量x的平均原始重要性分数
  • 第1类变量x的平均原始重要性分数
  • 平均精度降低
  • mean decreaseGini
现在我知道这些“意思”了,因为我知道它们的定义。我想知道的是如何使用它们

我真正想知道的是,这些值仅在准确度方面意味着什么,什么是好值,什么是坏值,什么是最大值和最小值,等等

如果一个变量的
均值递减精度高
均值递减基尼
是否意味着它是重要的还是不重要的?此外,关于原始分数的任何信息也可能有用。 我想知道关于这些数字的所有与应用有关的信息

使用“error”、“summation”或“permutated”等词的解释比不涉及任何关于随机林如何工作的讨论的更简单的解释更有帮助

比如,如果我想有人向我解释如何使用收音机,我不希望解释涉及收音机如何将无线电波转换成声音

使用“error”、“summation”或“permutated”等词的解释 那么,一个不涉及任何细节的简单解释就没那么有用了 讨论随机森林是如何工作的

比如说,如果我想有人向我解释如何使用收音机,我不会 预计解释将涉及收音机如何将无线电波转换成声音

你如何解释WKRP 100.5 FM中的数字“意味着什么”,而不涉及波频率的烦人技术细节?坦率地说,即使您理解一些技术术语,也很难理解随机林的参数和相关性能问题

以下是我的一些答案:

-0类变量x的平均原始重要性分数

-第1类变量x的平均原始重要性分数

从随机林中简化,原始重要性分数衡量在成功分类数据方面,特定预测变量比随机预测变量更有用的程度

-平均值降低了精度

我认为这仅仅是在模型中,我相信它衡量了在模型中加入这个预测因子在多大程度上减少了分类错误

-梅兰基尼


在描述一个社会的收入分配时被定义为“不公平”,或者在基于树的分类中被定义为“节点不洁”。较低的基尼值(即基尼值中较高的降幅)意味着特定的预测变量在将数据划分到定义的类中起着更大的作用。如果不讨论分类树中的数据是根据预测器的值在各个节点上分割的这一事实,就很难描述这一点。我不太清楚这是如何转化为更好的性能的。

请立即关注:越高的值意味着变量越重要。你提到的所有措施都应该如此

随机林为您提供了相当复杂的模型,因此很难解释重要性度量。如果您想轻松理解变量的作用,请不要使用RFs。改用线性模型或(非集成)决策树

你说:

使用这些词的解释 “错误”、“求和”或“置换” 会比一个更简单的 不涉及任何问题的解释 论随机森林 工作

除非你深入研究并了解随机森林,否则要解释比上述更多的东西将是非常困难的。我想你是在抱怨手册,或是布莱曼手册中的章节:


为了弄清楚一个变量有多重要,他们用随机垃圾(permute)填充它,然后看看预测精度会降低多少。意思是降低准确性,意思是降低基尼这样工作。我不确定原始重要性分数是多少。

对于随机森林,可解释性有点难。虽然RF是一个非常健壮的分类器,但它以民主的方式进行预测。我的意思是,通过随机抽取变量子集和数据子集,构建成百上千棵树。然后对所有未选择的数据进行预测并保存预测。它的健壮性是因为它能很好地处理数据集的变化无常(即它能平滑随机的高/低值、偶然的绘图/样本、以4种不同的方式测量同一事物等)。然而,如果您有一些高度相关的变量,它们可能看起来都很重要,因为它们并不总是都包含在每个模型中


使用随机森林的一种潜在方法可能是帮助减少预测值,然后切换到常规购物车,或者尝试使用基于推理的树模型的PARTY包。但是,您必须警惕数据挖掘问题,并对参数进行推断。

请包含指向实际用于节点拆分的基尼定义的链接: