是否存在具有多个答案的NLP问答数据集?

是否存在具有多个答案的NLP问答数据集?,nlp,dataset,question-answering,Nlp,Dataset,Question Answering,我正在制造一台QA机器。我有一个问题,一个问题可能有多个答案,而答案在上下文中位于不同的位置。例如: 问题:克里斯必须做什么 上下文:……克里斯必须洗碗……(更多文本)……克里斯必须做作业 正确答案: 洗碗 做作业 当我得到一个问题的答案时,我使用聚类算法来消除重复数据并得到“单独”的答案。因此,我需要一个数据集,该数据集包含一些1个问题-许多以上的答案,以评估我的聚类算法和句子嵌入模型 是否有任何公共数据集支持一对一个问题-多个正确答案(不重复)?我尝试过MARCO女士,但此数据集中的多个

我正在制造一台QA机器。我有一个问题,一个问题可能有多个答案,而答案在上下文中位于不同的位置。例如:

问题:克里斯必须做什么

上下文:……克里斯必须洗碗……(更多文本)……克里斯必须做作业

正确答案

  • 洗碗
  • 做作业
当我得到一个问题的答案时,我使用聚类算法来消除重复数据并得到“单独”的答案。因此,我需要一个数据集,该数据集包含一些1个问题-许多以上的答案,以评估我的聚类算法和句子嵌入模型


是否有任何公共数据集支持一对一个问题-多个正确答案(不重复)?我尝试过MARCO女士,但此数据集中的多个答案大部分是重复的。

Muc2004是一个文档级事件提取数据集,对于每个事件角色,都有多个答案。比如说,

问题:谁是这次袭击的受害者

背景:……因为卡洛斯·巴伦西亚·加西亚的死刑判决是最后一晚……(更多文本)……玛丽亚·埃琳娜·迪亚兹被暗杀

正确答案:

  • 卡洛斯·瓦伦西亚·加西亚
  • 玛丽亚·埃琳娜·迪亚兹

我在寻找类似的问答技术或具有多个非冗余答案的数据集

这是数据集:

以及论文:此处链接说明]

然而,本文将QA问题作为一个句子分类任务提出,任务实际上是判断上下文中的每个句子是否回答了查询

现在,如果你的多个答案不跨越一个句子,只是短语,我不建议你这么做