Machine learning 基于F1分数(阈值=0.5)选择模型是否等同于基于精确召回曲线下的面积选择模型?

Machine learning 基于F1分数(阈值=0.5)选择模型是否等同于基于精确召回曲线下的面积选择模型?,machine-learning,auc,precision-recall,Machine Learning,Auc,Precision Recall,提供了准确度、AUROC、F1和AUPR的良好总结 在同一数据集上比较不同模型的性能时,根据用例,可以选择精度、AUROC、AUPR或F1 但有一件事我不太清楚:“与基于PR曲线下面积的选择相比,基于F1(精确性和召回率之间的调和平均值)的选择是否会产生相同的选择?” 若然,原因为何 由于一个非常简单和基本的原因,最肯定的是不是:AUC分数(ROC或PR曲线)实际上给出了整个阈值范围内平均的模型性能;仔细查看链接文档,您会注意到以下关于PR AUC的内容(在原件中强调): 您还可以将PR AUC

提供了准确度、AUROC、F1和AUPR的良好总结

在同一数据集上比较不同模型的性能时,根据用例,可以选择精度、AUROC、AUPR或F1

但有一件事我不太清楚:“与基于PR曲线下面积的选择相比,基于F1(精确性和召回率之间的调和平均值)的选择是否会产生相同的选择?”


若然,原因为何

由于一个非常简单和基本的原因,最肯定的是不是:AUC分数(ROC或PR曲线)实际上给出了整个阈值范围内平均的模型性能;仔细查看链接文档,您会注意到以下关于PR AUC的内容(在原件中强调):

您还可以将PR AUC视为精度分数的平均值 为每个召回阈值计算。你也可以调整这个 定义,通过选择/剪裁召回来满足您的业务需求 阈值(如果需要)

您可以使用PR AUC

当您想选择适合业务问题的阈值时

当您选择任何特定阈值(精度、召回率、F1等)时,您已经完全离开了AUC分数(ROC或PR)的范围-您处于曲线上的一个点上,曲线下的平均面积不再有用(甚至没有意义)

我知道为什么AUC分数会产生误导,因为大多数人认为他们给出的不是他们实际给出的,即模型在整个阈值范围内的性能,而要部署的(因此对其性能感兴趣)必然涉及特定的阈值