Machine learning 精确召回曲线中的阈值是多少？_Machine Learning_Classification_Auc_Precision Recall_Model Comparison

Machine learning 精确召回曲线中的阈值是多少？

machine-learning

Machine learning 精确召回曲线中的阈值是多少？,machine-learning,classification,auc,precision-recall,model-comparison,Machine Learning,Classification,Auc,Precision Recall,Model Comparison,我知道精确性的概念以及召回的概念。但我发现很难理解“阈值”的概念，它使任何P-R曲线成为可能想象一下，我有一个模型要建立，它可以预测癌症在患者中的再次发生（是或否），使用一些相关特征的体面分类算法。我分割数据以进行培训和测试。假设我使用训练数据训练模型，并使用测试数据获得精度和召回指标但我现在怎么画p-R曲线呢？根据什么？我只有两个值，一个精度和一个召回率。我读到这是一个“阈值”，它允许你获得几个精确召回对。但这个门槛是什么？我还是一个初学者，我无法理解门槛的概念我在很多分类模型的比较中看

我知道精确性的概念以及召回的概念。但我发现很难理解“阈值”的概念，它使任何P-R曲线成为可能

想象一下，我有一个模型要建立，它可以预测癌症在患者中的再次发生（是或否），使用一些相关特征的体面分类算法。我分割数据以进行培训和测试。假设我使用训练数据训练模型，并使用测试数据获得精度和召回指标

但我现在怎么画p-R曲线呢？根据什么？我只有两个值，一个精度和一个召回率。我读到这是一个“阈值”，它允许你获得几个精确召回对。但这个门槛是什么？我还是一个初学者，我无法理解门槛的概念

我在很多分类模型的比较中看到了下面的一个。但是他们怎么能得到这么多双呢

ROC曲线：

x轴：假阳性率FPR=FP/（FP+TN）=FP/N
y轴：真阳性率TPR=回忆=TP/（TP+FN）=TP/P

精确召回曲线：

x轴：回忆=TP/（TP+FN）=TP/P=TPR
y轴：精度=TP/（TP+FP）=TP/PP

您的癌症检测示例是一个二进制分类问题。你的预测是基于概率的。患（不）癌症的可能性

通常，如果p（A）>0.5（您的阈值），则实例将被分类为A。对于该值，您将根据真阳性、真阴性、假阳性和假阴性获得召回精度对

现在，当您更改0.5阈值时，会得到不同的结果（不同的对）。您已经可以将P（a）>0.3的患者归类为“患有癌症”。这将降低精确度并增加召回率。你宁愿告诉某人他得了癌症，即使他没有，以确保癌症患者一定能得到他们需要的治疗。这代表了TPR和FPR或精确性和召回率或敏感性和特异性之间的直观权衡

让我们添加这些术语，因为它们在生物统计学中更常见

灵敏度=节气门位置/节气门位置=召回率=节气门位置
特异性=TN/N=（1–FPR）

ROC曲线和精确回忆曲线显示了分类器的所有这些可能阈值

如果准确度不是一个合适的质量度量值，你应该考虑这些度量。将所有患者分类为“未患癌症”将为您提供最高的准确度，但ROC和精确回忆曲线的值将为1和0。

+1以获得清晰的解释。然而，我有几个问题，如果我把一个病人分类为P（a）>0.3的“患有癌症”，我实际上会把许多病人标记为癌症“阳性”，对吗？这意味着，误报率将很高，导致精度较低。我遗漏了什么吗？在那之前，我假设当你在精确回忆曲线中从左向右移动时，你的阈值会增加。这是一个有效的假设吗？是的，你是对的，我错了，我弄错了。FP上升->精度下降。第二条评论也是正确的。：）你在你的岗位上是对的。降低阈值-提高精度。这是一个悖论。当阈值较低时，我们最终将许多患者标记为阳性，这当然会增加假阳性的数量，但也会增加真阳性的数量，特别是当我们存在类别不平衡时（数据集中阳性的数量多于阴性的数量），我们最终得到的大部分预测完全是偶然的。结论-FP增加，但TP的增加主导FP，因此选择较低阈值时，精确度增加。如果我错了，请纠正我。不，召回率很高。正如您在第一次评论中所注意到的那样，精确度将很低。