Machine learning 混淆矩阵与ROC曲线_Machine Learning_Statistics_Roc

Machine learning 混淆矩阵与ROC曲线

machine-learning statistics

Machine learning 混淆矩阵与ROC曲线,machine-learning,statistics,roc,Machine Learning,Statistics,Roc,我用sci工具包学习建立了一个随机森林模型来预测保险续期。这很棘手，因为在我的数据集中，96.24%的人续费，而只有3.76%的人不续费。运行模型后，我使用混淆矩阵、分类报告和ROC曲线评估模型性能 [[ 2448 8439] [ 3 278953]] precision recall f1-score support 0 1.00 0.22 0.37 10887

我用sci工具包学习建立了一个随机森林模型来预测保险续期。这很棘手，因为在我的数据集中，96.24%的人续费，而只有3.76%的人不续费。运行模型后，我使用混淆矩阵、分类报告和ROC曲线评估模型性能

[[  2448   8439]
 [     3 278953]]


             precision    recall  f1-score   support

          0       1.00      0.22      0.37     10887
          1       0.97      1.00      0.99    278956

avg / total       0.97      0.97      0.96    289843

我的ROC曲线如下所示：

该模型预测续约率仅为100%以下（四舍五入至1.00，见召回列），非续约率约为22%（见召回列）。ROC曲线表明曲线下的面积远大于图右下部分所示的面积（面积=0.61）

有人知道为什么会这样吗

谢谢大家!

在等级高度不平衡的情况下，ROC被证明是一个不合适的指标。更好的衡量标准是使用PR曲线下的平均精度或面积

这篇文章在一个类似的问题环境中讨论了完全相同的问题

解释优化PR曲线下的最佳区域也将获得最佳ROC。

此问题更适合stats.stackexchange.com。我同意，通过检查可以看出，曲线下的面积必须大于0.61，所以我不知道这个数字来自哪里。然而，也许平滑曲线不是真实ROC的精确表示——也许实际ROC不是平滑曲线，而是一些块状曲线，因此它的面积实际上是0.61。我的建议是获得分数和实际标签，自己构建ROC并进行比较。