Machine learning 混淆矩阵与ROC曲线

Machine learning 混淆矩阵与ROC曲线,machine-learning,statistics,roc,Machine Learning,Statistics,Roc,我用sci工具包学习建立了一个随机森林模型来预测保险续期。这很棘手,因为在我的数据集中,96.24%的人续费,而只有3.76%的人不续费。运行模型后,我使用混淆矩阵、分类报告和ROC曲线评估模型性能 [[ 2448 8439] [ 3 278953]] precision recall f1-score support 0 1.00 0.22 0.37 10887

我用sci工具包学习建立了一个随机森林模型来预测保险续期。这很棘手,因为在我的数据集中,96.24%的人续费,而只有3.76%的人不续费。运行模型后,我使用混淆矩阵、分类报告和ROC曲线评估模型性能

[[  2448   8439]
 [     3 278953]]


             precision    recall  f1-score   support

          0       1.00      0.22      0.37     10887
          1       0.97      1.00      0.99    278956

avg / total       0.97      0.97      0.96    289843
我的ROC曲线如下所示:

该模型预测续约率仅为100%以下(四舍五入至1.00,见召回列),非续约率约为22%(见召回列)。ROC曲线表明曲线下的面积远大于图右下部分所示的面积(面积=0.61)

有人知道为什么会这样吗


谢谢大家!

在等级高度不平衡的情况下,ROC被证明是一个不合适的指标。更好的衡量标准是使用PR曲线下的平均精度或面积

这篇文章在一个类似的问题环境中讨论了完全相同的问题


解释优化PR曲线下的最佳区域也将获得最佳ROC。

此问题更适合stats.stackexchange.com。我同意,通过检查可以看出,曲线下的面积必须大于0.61,所以我不知道这个数字来自哪里。然而,也许平滑曲线不是真实ROC的精确表示——也许实际ROC不是平滑曲线,而是一些块状曲线,因此它的面积实际上是0.61。我的建议是获得分数和实际标签,自己构建ROC并进行比较。