Machine learning (查询、文档、相关性)用于构建信息检索系统的免费数据集

Machine learning (查询、文档、相关性)用于构建信息检索系统的免费数据集,machine-learning,dataset,information-retrieval,supervised-learning,Machine Learning,Dataset,Information Retrieval,Supervised Learning,我很想找到像“英语相关性判断文件列表”这样的数据集: 此数据集包含带标签的查询和文档对。 然而,它依赖于一个称为“数据-英语文档”的非自由语料库: 你知道有类似的免费数据集吗? 旁注:该数据集将用于建立基于神经网络的信息检索系统的研究项目 您在问题中混淆了几个TREC集合。ClueWeb09和trec.nist.gov/data/docs_eng.html指向的文档集都是单独的文档集。也就是说,每个文档集都有自己独特的主题(查询)和相关性判断,它们不属于文档集分布的一部分 有几十种不同的TR

我很想找到像“英语相关性判断文件列表”这样的数据集:

此数据集包含带标签的查询和文档对。 然而,它依赖于一个称为“数据-英语文档”的非自由语料库:

你知道有类似的免费数据集吗?


旁注:该数据集将用于建立基于神经网络的信息检索系统的研究项目

您在问题中混淆了几个TREC集合。ClueWeb09和trec.nist.gov/data/docs_eng.html指向的文档集都是单独的文档集。也就是说,每个文档集都有自己独特的主题(查询)和相关性判断,它们不属于文档集分布的一部分

有几十种不同的TREC文本检索测试集合。可用的集合列在TREC数据页(TREC.nist.gov/Data.html)上,由创建它们的TREC轨道组织。它们是以这种方式组织的,因为集合的目标通常是支持该轨迹设计用于支持的检索问题

一般来说,查询和相关性判断可以直接从TREC站点下载。通常必须购买文档集:文档集受原始来源的版权保护,并且必须获得许可,或者收集/分发文档集会产生其他重大费用。如果您参加TREC,您可以免费获得一些旧的TREC文档集(尽管这在今年不再是一个选项)。少数文档集是免费的,尽管大多数文档集仍然需要签署数据使用协议。基因组学跟踪有一个特别的搜索任务,其文档集根据数据使用协议是免费的。看

格拉斯哥大学保留了一个指向其他可用测试集的页面,其中一些测试集是免费的。其中大部分是TREC之前(1992年之前)的收藏品,按照今天的标准,这些收藏品非常小。(“很小”就像你可能会发现论文评论员对仅在小样本上展示的结果高度怀疑。)

Ellen Voorhees, TREC项目经理,
NIST

非常感谢,这正是我想要的。我已经把收藏的名字改错了。对我来说,我只是在寻找一个在不同论文中被引用的初始语料库,以测试我的方法与其他方法的对比。之后,我将使用更大的集合。再次感谢:)。从事语义搜索和检索引擎(集合中文档的相似性搜索)的人员是否使用TREC数据集来验证相似性搜索算法的准确性(以及相关指标)?