邻近矩阵-随机森林,R
我在R中使用randomForest包,它允许计算邻近矩阵(p)。在包的描述中,它将参数描述为:“如果调用randomForest时接近度=TRUE,则输入之间的接近度度量矩阵(基于数据点对位于相同终端节点中的频率)。” 我获得了随机森林的邻近矩阵,如下所示:邻近矩阵-随机森林,R,r,statistics,random-forest,proximity,R,Statistics,Random Forest,Proximity,我在R中使用randomForest包,它允许计算邻近矩阵(p)。在包的描述中,它将参数描述为:“如果调用randomForest时接近度=TRUE,则输入之间的接近度度量矩阵(基于数据点对位于相同终端节点中的频率)。” 我获得了随机森林的邻近矩阵,如下所示: P <- randomForest(x, y, ntree = 1000, proximity=TRUE)$proximity P因为与默认预测一样,默认接近度仅使用树计算,而用于构建树的样本中未包含任何观察(它们是“现成的”)
P <- randomForest(x, y, ntree = 1000, proximity=TRUE)$proximity
P因为与默认预测一样,默认接近度仅使用树计算,而用于构建树的样本中未包含任何观察(它们是“现成的”)
每对案例发生这种情况的次数会略有不同,当然不会像1000这样是一个很好的整数
您会注意到,在邻近性之后列出的下一个参数叫做oob.prox
,指示是只使用包外对(默认值)还是使用每一棵树。只是为了补充上述答案,因为这对我来说也很奇怪,如果它对任何人都有帮助,根据布雷曼(我引用):
“一种内在的接近度量。
由于单个树未运行,因此终端节点将包含
只有少数实例。运行培训集中的所有案例
从树上下来。如果情况i和情况j都位于同一终端
节点。将i和j之间的距离增加1。在…的结尾
运行时,近邻被除以中的树数的两倍
一个箱子和它本身之间的距离和接近度设置为1
Breiman的论文中提到了上述内容,这是randomForest函数的参考。邻近性是指不同树的两个数据点在同一叶节点上结束的频率的比例。他说“在树下的训练集中运行所有案例。”我以为这应该是现成的箱子。@Keith Breiman可能在使用另一种方法,R's randomForest的方法。