Nlp QA问题系统中多个正确答案的评价指标

Nlp QA问题系统中多个正确答案的评价指标,nlp,metrics,question-answering,Nlp,Metrics,Question Answering,我正在构建一台QA机器,我有自己的数据来完成这项任务。我有一个问题,一个问题可以有两个或更多的答案。例如: 问题:“A必须做什么?” 正确答案: “我必须打扫地板” “我得把衣服挂起来” 在我的QA模型中,我可以得到k个最佳答案。然而,在某些情况下,不仅k与正确答案的数量不相等,而且k中的一些答案也不正确 大多数公共数据集,如《小队》、《triviaQA》,都有一对问题和一个答案。就我而言,我的问题可以有多个答案。那么,我应该使用什么样的评估指标呢?我可以使用F1分数吗?评估指标应始终取决于

我正在构建一台QA机器,我有自己的数据来完成这项任务。我有一个问题,一个问题可以有两个或更多的答案。例如:

问题:“A必须做什么?”

正确答案

  • “我必须打扫地板”
  • “我得把衣服挂起来”
在我的QA模型中,我可以得到k个最佳答案。然而,在某些情况下,不仅k与正确答案的数量不相等,而且k中的一些答案也不正确


大多数公共数据集,如《小队》、《triviaQA》,都有一对问题和一个答案。就我而言,我的问题可以有多个答案。那么,我应该使用什么样的评估指标呢?我可以使用F1分数吗?

评估指标应始终取决于您正在开发的系统的使用方式。F1成绩当然是一个合理的统计数据,它告诉你很多关于正确答案和错误答案的分布情况

如果你打算从你的系统中给出一个最好的答案,你还应该测量1-最好的准确度。如果你要给出多个答案,你应该测量(即,n个最佳答案中正确答案的比例,这实际上是回忆,但信息检索人员称之为精确性)

如果您不确定要呈现的合适答案数量,您可能需要绘制图并计算AUC分数