Machine learning （查询、文档、相关性）用于构建信息检索系统的免费数据集_Machine Learning_Dataset_Information Retrieval_Supervised Learning

Machine learning （查询、文档、相关性）用于构建信息检索系统的免费数据集

machine-learning

Machine learning （查询、文档、相关性）用于构建信息检索系统的免费数据集,machine-learning,dataset,information-retrieval,supervised-learning,Machine Learning,Dataset,Information Retrieval,Supervised Learning,我很想找到像“英语相关性判断文件列表”这样的数据集：此数据集包含带标签的查询和文档对。然而，它依赖于一个称为“数据-英语文档”的非自由语料库：你知道有类似的免费数据集吗？旁注：该数据集将用于建立基于神经网络的信息检索系统的研究项目您在问题中混淆了几个TREC集合。ClueWeb09和trec.nist.gov/data/docs_eng.html指向的文档集都是单独的文档集。也就是说，每个文档集都有自己独特的主题（查询）和相关性判断，它们不属于文档集分布的一部分有几十种不同的TR

我很想找到像“英语相关性判断文件列表”这样的数据集：

此数据集包含带标签的查询和文档对。然而，它依赖于一个称为“数据-英语文档”的非自由语料库：

你知道有类似的免费数据集吗？

旁注：该数据集将用于建立基于神经网络的信息检索系统的研究项目

您在问题中混淆了几个TREC集合。ClueWeb09和trec.nist.gov/data/docs_eng.html指向的文档集都是单独的文档集。也就是说，每个文档集都有自己独特的主题（查询）和相关性判断，它们不属于文档集分布的一部分

有几十种不同的TREC文本检索测试集合。可用的集合列在TREC数据页（TREC.nist.gov/Data.html）上，由创建它们的TREC轨道组织。它们是以这种方式组织的，因为集合的目标通常是支持该轨迹设计用于支持的检索问题

一般来说，查询和相关性判断可以直接从TREC站点下载。通常必须购买文档集：文档集受原始来源的版权保护，并且必须获得许可，或者收集/分发文档集会产生其他重大费用。如果您参加TREC，您可以免费获得一些旧的TREC文档集（尽管这在今年不再是一个选项）。少数文档集是免费的，尽管大多数文档集仍然需要签署数据使用协议。基因组学跟踪有一个特别的搜索任务，其文档集根据数据使用协议是免费的。看

格拉斯哥大学保留了一个指向其他可用测试集的页面，其中一些测试集是免费的。其中大部分是TREC之前（1992年之前）的收藏品，按照今天的标准，这些收藏品非常小。（“很小”就像你可能会发现论文评论员对仅在小样本上展示的结果高度怀疑。）

Ellen Voorhees， TREC项目经理，

NIST

非常感谢，这正是我想要的。我已经把收藏的名字改错了。对我来说，我只是在寻找一个在不同论文中被引用的初始语料库，以测试我的方法与其他方法的对比。之后，我将使用更大的集合。再次感谢：）。从事语义搜索和检索引擎（集合中文档的相似性搜索）的人员是否使用TREC数据集来验证相似性搜索算法的准确性（以及相关指标）？