C# 测试搜索引擎功能的文本文件

C# 测试搜索引擎功能的文本文件,c#,file,search,scripting,search-engine,C#,File,Search,Scripting,Search Engine,为了准备即将到来的编程竞赛,我正在用C语言制作一个非常基本的搜索引擎,它从用户那里获取一个查询(例如,“Markov Decision Process”)并搜索几个文件,以找到与查询最相关的文件 该应用程序似乎正在运行(我使用了一个术语文档矩阵算法) 但现在我想测试一下搜索引擎的功能,看看它是否真的能正常工作。我试着拿出几篇维基百科文章,将它们保存为.txt文件并进行测试,但我就是看不出它是否工作得足够快(即使使用了一些计时器) 我的问题是,是否有一个网站显示了几个文件来测试搜索引擎(以及逻辑上

为了准备即将到来的编程竞赛,我正在用C语言制作一个非常基本的搜索引擎,它从用户那里获取一个查询(例如,
“Markov Decision Process”
)并搜索几个文件,以找到与查询最相关的文件

该应用程序似乎正在运行(我使用了一个术语文档矩阵算法)

但现在我想测试一下搜索引擎的功能,看看它是否真的能正常工作。我试着拿出几篇维基百科文章,将它们保存为
.txt
文件并进行测试,但我就是看不出它是否工作得足够快(即使使用了一些计时器)

我的问题是,是否有一个网站显示了几个文件来测试搜索引擎(以及逻辑上预期的结果)?

到目前为止,我正在用常识进行测试,但如果能确定我的结果,那就太好了

另外,我如何获取有关各种主题的
.txt
文件(可能有10000多个文件)的集合,以查看我的应用程序运行是否足够快?

我试着抄袭一些维基百科的文章,但这需要花费太多的时间。我还想做一个脚本,但我真的不知道怎么做

那么,在哪里可以找到很多主题不同的文件呢

否则,如何对我的应用程序进行基准测试?


注意:我想一个简单的大
.txt
文件,其中每一行代表一个主题的“文件”也可以完成这项工作。

您可以使用递归函数从一个页面链接的每个页面加载html,从而获得wikipedia页面

如果您有一些c#方面的经验,这将有助于您:


然后循环浏览文本并收集文本的所有实例:
“通过使用递归函数并从一个页面链接的每个页面加载html,您可以获得wikipedia页面

如果您有一些c#方面的经验,这将有助于您:


然后循环浏览文本并收集文本的所有实例:
“一个文本文件源将是。如果你想一次下载数千个文件,它们就会提供。(页面没有说明,但我可以想象它们在CD/DVD iso中是txt格式的。)

文本文件的一个来源是。如果你想一次下载数千个文件,它们就会提供。(页面没有说明,但我可以想象它们在CD/DVD iso中是txt格式的。)

您可以使用的数据集来自的网站


一些示例:,

您可以使用来自的站点的数据集


一些示例:,

请随意更改标签,以获得更好的标签,我永远不知道哪些标签合适,哪些不合适……我不确定很多人会不辞辛劳地创建一个包含10000个主题的文本文件,或者上传10000个不同的主题files@annonymously:哦,我当然不是这样要求的!我想用某种脚本获取这些文件,从维基百科中随机获取文章并保存在本地,也许?我不知道如何获取这些文件或只是对我的应用程序进行基准测试,所以这就是我要问的:我该怎么做?如果你只需要大量随机文本,中间有一些信息,你可以制作一个脚本,复制大量维基百科页面的html源。@annonymous:哦,我喜欢这个主意!我在哪里可以开始学习如何制作这样的脚本?请随意更改标签,以获得更好的,我永远不知道哪些适合,哪些不适合…我不确定很多人会不厌其烦地制作一个包含10000个主题的文本文件,或者上传10000个不同的主题files@annonymously:哦,我当然不是这样要求的!我想用某种脚本获取这些文件,从维基百科中随机获取文章并保存在本地,也许?我不知道如何获取这些文件或只是对我的应用程序进行基准测试,所以这就是我要问的:我该怎么做?如果你只需要大量随机文本,中间有一些信息,你可以制作一个脚本,复制大量维基百科页面的html源。@annonymous:哦,我喜欢这个主意!我从哪里开始学习如何制作这样的脚本?