Machine learning 混淆矩阵与ROC曲线
我用sci工具包学习建立了一个随机森林模型来预测保险续期。这很棘手,因为在我的数据集中,96.24%的人续费,而只有3.76%的人不续费。运行模型后,我使用混淆矩阵、分类报告和ROC曲线评估模型性能Machine learning 混淆矩阵与ROC曲线,machine-learning,statistics,roc,Machine Learning,Statistics,Roc,我用sci工具包学习建立了一个随机森林模型来预测保险续期。这很棘手,因为在我的数据集中,96.24%的人续费,而只有3.76%的人不续费。运行模型后,我使用混淆矩阵、分类报告和ROC曲线评估模型性能 [[ 2448 8439] [ 3 278953]] precision recall f1-score support 0 1.00 0.22 0.37 10887
[[ 2448 8439]
[ 3 278953]]
precision recall f1-score support
0 1.00 0.22 0.37 10887
1 0.97 1.00 0.99 278956
avg / total 0.97 0.97 0.96 289843
我的ROC曲线如下所示:
该模型预测续约率仅为100%以下(四舍五入至1.00,见召回列),非续约率约为22%(见召回列)。ROC曲线表明曲线下的面积远大于图右下部分所示的面积(面积=0.61)
有人知道为什么会这样吗
谢谢大家! 在等级高度不平衡的情况下,ROC被证明是一个不合适的指标。更好的衡量标准是使用PR曲线下的平均精度或面积 这篇文章在一个类似的问题环境中讨论了完全相同的问题
解释优化PR曲线下的最佳区域也将获得最佳ROC。此问题更适合stats.stackexchange.com。我同意,通过检查可以看出,曲线下的面积必须大于0.61,所以我不知道这个数字来自哪里。然而,也许平滑曲线不是真实ROC的精确表示——也许实际ROC不是平滑曲线,而是一些块状曲线,因此它的面积实际上是0.61。我的建议是获得分数和实际标签,自己构建ROC并进行比较。