R 将分类林的概率聚合为一个平均概率-为什么我会有偏差？_R_Machine Learning_Classification_Random Forest

R 将分类林的概率聚合为一个平均概率-为什么我会有偏差？

r machine-learning

R 将分类林的概率聚合为一个平均概率-为什么我会有偏差？,r,machine-learning,classification,random-forest,R,Machine Learning,Classification,Random Forest,想象一个分类问题：信用可以违约（或不违约）。我的目标变量是默认值（是/否）。如果我训练一棵树或一个逻辑回归来预测每个信用的违约概率，那么训练数据中所有信用的平均PD与违约信用数除以所有信用数相同（这在直觉上是合理的）然而，如果我训练一个森林（由许多分类树组成），我就会失去这个特性。我知道，由于袋外样品的原因，结果并不完全相同，但这不应该很接近吗？现在，如果训练数据中有1.3%的信用违约，log reg训练数据的预测平均值以及一棵树的预测平均值将导致1.3%。然而，森林结果大约在1.4%左

想象一个分类问题：信用可以违约（或不违约）。我的目标变量是默认值（是/否）。如果我训练一棵树或一个逻辑回归来预测每个信用的违约概率，那么训练数据中所有信用的平均PD与违约信用数除以所有信用数相同（这在直觉上是合理的）

然而，如果我训练一个森林（由许多分类树组成），我就会失去这个特性。我知道，由于袋外样品的原因，结果并不完全相同，但这不应该很接近吗？现在，如果训练数据中有1.3%的信用违约，log reg训练数据的预测平均值以及一棵树的预测平均值将导致1.3%。然而，森林结果大约在1.4%左右（我对森林进行了一千次训练，所有结果都在[1.37,1.43]的区间内，但由于“随机性”，这不是一种效果）

如果我训练回归树（树预测正确的平均概率，一个由许多回归树组成的森林则不能）

节点大小似乎是一个参数，它对平均预测影响很大，但我不明白为什么

有人能解释为什么林显著高估了这种概率和/或为什么它依赖于节点大小吗

顺便说一句，我使用的是R，但我想在python中也是一样的

多谢各位

嘿@Jana，这看起来不像是一个

或一般的编程问题，这意味着，这不是一个合适的论坛。你可能是对的，但我想知道它是否与随机林在R中编码的方式有关。如果我对所有树进行聚合，理论上，这是真正的默认率。平均而言，森林不是应该得到同样的结果吗？这个问题是由于袋外取样造成的吗？但是设置replace=FALSE不会改变任何东西。如果我做CV（实际上没有必要），所有观察的平均概率更接近于经验违约率。如果你们中的一个知道我还可以尝试什么，你会帮我很大的忙。当你说你检查平均PD时，这是否意味着你平均了你的模型中预测的类的结果？只是想了解：）不是预测类，而是我平均预测概率（因此，大多数树投票）