Classification 真实概率预测的阈值是否应该是事件的边际概率(从数学角度)?

Classification 真实概率预测的阈值是否应该是事件的边际概率(从数学角度)?,classification,threshold,calibration,probability-theory,Classification,Threshold,Calibration,Probability Theory,假设我有一个不平衡的数据集,有0.95个负样本和0.05个正样本,还有一个模型(XGboost)在此基础上训练 然后,我用它校准了我的模型,得到了这条(几乎太完美了)校准曲线 我知道现实生活中的决策阈值是精确性/召回率等之间的折衷,但从数学角度来看(如果我们能够预测绝对正确的概率),最佳阈值是否总是正/负的比率,即在这种情况下为0.05 就个人而言,我会说“是”,因为这里事件的边际概率是0.05,因此预测概率高于0.05将是“比平常更高”,即比平常更可能,反之亦然

假设我有一个不平衡的数据集,有0.95个负样本和0.05个正样本,还有一个模型(XGboost)在此基础上训练

然后,我用它校准了我的模型,得到了这条(几乎太完美了)校准曲线

我知道现实生活中的决策阈值是精确性/召回率等之间的折衷,但从数学角度来看(如果我们能够预测绝对正确的概率),最佳阈值是否总是正/负的比率,即在这种情况下为0.05

就个人而言,我会说“是”,因为这里事件的边际概率是0.05,因此预测概率高于0.05将是“比平常更高”,即比平常更可能,反之亦然