Machine learning 精确召回曲线中的阈值是多少?
我知道精确性的概念以及召回的概念。但我发现很难理解“阈值”的概念,它使任何P-R曲线成为可能 想象一下,我有一个模型要建立,它可以预测癌症在患者中的再次发生(是或否),使用一些相关特征的体面分类算法。我分割数据以进行培训和测试。假设我使用训练数据训练模型,并使用测试数据获得精度和召回指标 但我现在怎么画p-R曲线呢?根据什么?我只有两个值,一个精度和一个召回率。我读到这是一个“阈值”,它允许你获得几个精确召回对。但这个门槛是什么?我还是一个初学者,我无法理解门槛的概念 我在很多分类模型的比较中看到了下面的一个。但是他们怎么能得到这么多双呢 ROC曲线:Machine learning 精确召回曲线中的阈值是多少?,machine-learning,classification,auc,precision-recall,model-comparison,Machine Learning,Classification,Auc,Precision Recall,Model Comparison,我知道精确性的概念以及召回的概念。但我发现很难理解“阈值”的概念,它使任何P-R曲线成为可能 想象一下,我有一个模型要建立,它可以预测癌症在患者中的再次发生(是或否),使用一些相关特征的体面分类算法。我分割数据以进行培训和测试。假设我使用训练数据训练模型,并使用测试数据获得精度和召回指标 但我现在怎么画p-R曲线呢?根据什么?我只有两个值,一个精度和一个召回率。我读到这是一个“阈值”,它允许你获得几个精确召回对。但这个门槛是什么?我还是一个初学者,我无法理解门槛的概念 我在很多分类模型的比较中看
- x轴:假阳性率FPR=FP/(FP+TN)=FP/N
- y轴:真阳性率TPR=回忆=TP/(TP+FN)=TP/P
- x轴:回忆=TP/(TP+FN)=TP/P=TPR
- y轴:精度=TP/(TP+FP)=TP/PP
- 灵敏度=节气门位置/节气门位置=召回率=节气门位置
- 特异性=TN/N=(1–FPR)
如果准确度不是一个合适的质量度量值,你应该考虑这些度量。将所有患者分类为“未患癌症”将为您提供最高的准确度,但ROC和精确回忆曲线的值将为1和0。+1以获得清晰的解释。然而,我有几个问题,如果我把一个病人分类为P(a)>0.3的“患有癌症”,我实际上会把许多病人标记为癌症“阳性”,对吗?这意味着,误报率将很高,导致精度较低。我遗漏了什么吗?在那之前,我假设当你在精确回忆曲线中从左向右移动时,你的阈值会增加。这是一个有效的假设吗?是的,你是对的,我错了,我弄错了。FP上升->精度下降。第二条评论也是正确的。:)你在你的岗位上是对的。降低阈值-提高精度。这是一个悖论。当阈值较低时,我们最终将许多患者标记为阳性,这当然会增加假阳性的数量,但也会增加真阳性的数量,特别是当我们存在类别不平衡时(数据集中阳性的数量多于阴性的数量),我们最终得到的大部分预测完全是偶然的。结论-FP增加,但TP的增加主导FP,因此选择较低阈值时,精确度增加。如果我错了,请纠正我。不,召回率很高。正如您在第一次评论中所注意到的那样,精确度将很低。