Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/67.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 将分类林的概率聚合为一个平均概率-为什么我会有偏差?_R_Machine Learning_Classification_Random Forest - Fatal编程技术网

R 将分类林的概率聚合为一个平均概率-为什么我会有偏差?

R 将分类林的概率聚合为一个平均概率-为什么我会有偏差?,r,machine-learning,classification,random-forest,R,Machine Learning,Classification,Random Forest,想象一个分类问题:信用可以违约(或不违约)。 我的目标变量是默认值(是/否)。 如果我训练一棵树或一个逻辑回归来预测每个信用的违约概率,那么训练数据中所有信用的平均PD与违约信用数除以所有信用数相同(这在直觉上是合理的) 然而,如果我训练一个森林(由许多分类树组成),我就会失去这个特性。我知道,由于袋外样品的原因,结果并不完全相同,但这不应该很接近吗? 现在,如果训练数据中有1.3%的信用违约,log reg训练数据的预测平均值以及一棵树的预测平均值将导致1.3%。然而,森林结果大约在1.4%左

想象一个分类问题:信用可以违约(或不违约)。 我的目标变量是默认值(是/否)。 如果我训练一棵树或一个逻辑回归来预测每个信用的违约概率,那么训练数据中所有信用的平均PD与违约信用数除以所有信用数相同(这在直觉上是合理的)

然而,如果我训练一个森林(由许多分类树组成),我就会失去这个特性。我知道,由于袋外样品的原因,结果并不完全相同,但这不应该很接近吗? 现在,如果训练数据中有1.3%的信用违约,log reg训练数据的预测平均值以及一棵树的预测平均值将导致1.3%。然而,森林结果大约在1.4%左右(我对森林进行了一千次训练,所有结果都在[1.37,1.43]的区间内,但由于“随机性”,这不是一种效果)

如果我训练回归树(树预测正确的平均概率,一个由许多回归树组成的森林则不能)

节点大小似乎是一个参数,它对平均预测影响很大,但我不明白为什么

有人能解释为什么林显著高估了这种概率和/或为什么它依赖于节点大小吗

顺便说一句,我使用的是R,但我想在python中也是一样的


多谢各位

嘿@Jana,这看起来不像是一个
R
或一般的编程问题,这意味着,这不是一个合适的论坛。你可能是对的,但我想知道它是否与随机林在R中编码的方式有关。如果我对所有树进行聚合,理论上,这是真正的默认率。平均而言,森林不是应该得到同样的结果吗?这个问题是由于袋外取样造成的吗?但是设置replace=FALSE不会改变任何东西。如果我做CV(实际上没有必要),所有观察的平均概率更接近于经验违约率。如果你们中的一个知道我还可以尝试什么,你会帮我很大的忙。当你说你检查平均PD时,这是否意味着你平均了你的模型中预测的类的结果?只是想了解:)不是预测类,而是我平均预测概率(因此,大多数树投票)