Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 精确召回曲线中的阈值是多少?_Machine Learning_Classification_Auc_Precision Recall_Model Comparison - Fatal编程技术网

Machine learning 精确召回曲线中的阈值是多少?

Machine learning 精确召回曲线中的阈值是多少?,machine-learning,classification,auc,precision-recall,model-comparison,Machine Learning,Classification,Auc,Precision Recall,Model Comparison,我知道精确性的概念以及召回的概念。但我发现很难理解“阈值”的概念,它使任何P-R曲线成为可能 想象一下,我有一个模型要建立,它可以预测癌症在患者中的再次发生(是或否),使用一些相关特征的体面分类算法。我分割数据以进行培训和测试。假设我使用训练数据训练模型,并使用测试数据获得精度和召回指标 但我现在怎么画p-R曲线呢?根据什么?我只有两个值,一个精度和一个召回率。我读到这是一个“阈值”,它允许你获得几个精确召回对。但这个门槛是什么?我还是一个初学者,我无法理解门槛的概念 我在很多分类模型的比较中看

我知道精确性的概念以及召回的概念。但我发现很难理解“阈值”的概念,它使任何P-R曲线成为可能

想象一下,我有一个模型要建立,它可以预测癌症在患者中的再次发生(是或否),使用一些相关特征的体面分类算法。我分割数据以进行培训和测试。假设我使用训练数据训练模型,并使用测试数据获得精度和召回指标

但我现在怎么画p-R曲线呢?根据什么?我只有两个值,一个精度和一个召回率。我读到这是一个“阈值”,它允许你获得几个精确召回对。但这个门槛是什么?我还是一个初学者,我无法理解门槛的概念

我在很多分类模型的比较中看到了下面的一个。但是他们怎么能得到这么多双呢

ROC曲线:

  • x轴:假阳性率FPR=FP/(FP+TN)=FP/N
  • y轴:真阳性率TPR=回忆=TP/(TP+FN)=TP/P
精确召回曲线:

  • x轴:回忆=TP/(TP+FN)=TP/P=TPR
  • y轴:精度=TP/(TP+FP)=TP/PP
您的癌症检测示例是一个二进制分类问题。 你的预测是基于概率的。患(不)癌症的可能性

通常,如果p(A)>0.5(您的阈值),则实例将被分类为A。对于该值,您将根据真阳性、真阴性、假阳性和假阴性获得召回精度对

现在,当您更改0.5阈值时,会得到不同的结果(不同的对)。您已经可以将P(a)>0.3的患者归类为“患有癌症”。 这将降低精确度并增加召回率。你宁愿告诉某人他得了癌症,即使他没有,以确保癌症患者一定能得到他们需要的治疗。这代表了TPR和FPR或精确性和召回率或敏感性和特异性之间的直观权衡

让我们添加这些术语,因为它们在生物统计学中更常见

  • 灵敏度=节气门位置/节气门位置=召回率=节气门位置
  • 特异性=TN/N=(1–FPR)
ROC曲线和精确回忆曲线显示了分类器的所有这些可能阈值


如果准确度不是一个合适的质量度量值,你应该考虑这些度量。将所有患者分类为“未患癌症”将为您提供最高的准确度,但ROC和精确回忆曲线的值将为1和0。

+1以获得清晰的解释。然而,我有几个问题,如果我把一个病人分类为P(a)>0.3的“患有癌症”,我实际上会把许多病人标记为癌症“阳性”,对吗?这意味着,误报率将很高,导致精度较低。我遗漏了什么吗?在那之前,我假设当你在精确回忆曲线中从左向右移动时,你的阈值会增加。这是一个有效的假设吗?是的,你是对的,我错了,我弄错了。FP上升->精度下降。第二条评论也是正确的。:)你在你的岗位上是对的。降低阈值-提高精度。这是一个悖论。当阈值较低时,我们最终将许多患者标记为阳性,这当然会增加假阳性的数量,但也会增加真阳性的数量,特别是当我们存在类别不平衡时(数据集中阳性的数量多于阴性的数量),我们最终得到的大部分预测完全是偶然的。结论-FP增加,但TP的增加主导FP,因此选择较低阈值时,精确度增加。如果我错了,请纠正我。不,召回率很高。正如您在第一次评论中所注意到的那样,精确度将很低。