Nlp QA问题系统中多个正确答案的评价指标_Nlp_Metrics_Question Answering

Nlp QA问题系统中多个正确答案的评价指标

nlp

Nlp QA问题系统中多个正确答案的评价指标,nlp,metrics,question-answering,Nlp,Metrics,Question Answering,我正在构建一台QA机器，我有自己的数据来完成这项任务。我有一个问题，一个问题可以有两个或更多的答案。例如：问题：“A必须做什么？” 正确答案： “我必须打扫地板” “我得把衣服挂起来” 在我的QA模型中，我可以得到k个最佳答案。然而，在某些情况下，不仅k与正确答案的数量不相等，而且k中的一些答案也不正确大多数公共数据集，如《小队》、《triviaQA》，都有一对问题和一个答案。就我而言，我的问题可以有多个答案。那么，我应该使用什么样的评估指标呢？我可以使用F1分数吗？评估指标应始终取决于

我正在构建一台QA机器，我有自己的数据来完成这项任务。我有一个问题，一个问题可以有两个或更多的答案。例如：

问题：“A必须做什么？”

正确答案：

“我必须打扫地板”
“我得把衣服挂起来”

在我的QA模型中，我可以得到k个最佳答案。然而，在某些情况下，不仅k与正确答案的数量不相等，而且k中的一些答案也不正确

大多数公共数据集，如《小队》、《triviaQA》，都有一对问题和一个答案。就我而言，我的问题可以有多个答案。那么，我应该使用什么样的评估指标呢？我可以使用F1分数吗？

评估指标应始终取决于您正在开发的系统的使用方式。F1成绩当然是一个合理的统计数据，它告诉你很多关于正确答案和错误答案的分布情况

如果你打算从你的系统中给出一个最好的答案，你还应该测量1-最好的准确度。如果你要给出多个答案，你应该测量（即，n个最佳答案中正确答案的比例，这实际上是回忆，但信息检索人员称之为精确性）

如果您不确定要呈现的合适答案数量，您可能需要绘制图并计算AUC分数