Search Web爬网和Pagerank

Search Web爬网和Pagerank,search,web-crawler,pagerank,search-engine-bots,Search,Web Crawler,Pagerank,Search Engine Bots,我是一名计算机科学专业的学生,在网络爬网和构建搜索引擎方面我有点经验不足。此时,我正在使用最新版本的OpenSearchServer,并正在对数千个域进行爬网。当使用内置搜索引擎创建工具时,我会得到与我的查询相关的搜索结果,但它们是使用文档的向量模型进行排序的,而不是使用Pagerank算法或类似的方法。因此,排名靠前的结果只起到了微乎其微的作用,而来自维基百科等网站的高质量结果则隐藏在第二页 有没有办法在开放搜索服务器上运行一个粗略的Pagerank算法?如果没有,是否有类似的易于使用的开源软

我是一名计算机科学专业的学生,在网络爬网和构建搜索引擎方面我有点经验不足。此时,我正在使用最新版本的OpenSearchServer,并正在对数千个域进行爬网。当使用内置搜索引擎创建工具时,我会得到与我的查询相关的搜索结果,但它们是使用文档的向量模型进行排序的,而不是使用Pagerank算法或类似的方法。因此,排名靠前的结果只起到了微乎其微的作用,而来自维基百科等网站的高质量结果则隐藏在第二页

有没有办法在开放搜索服务器上运行一个粗略的Pagerank算法?如果没有,是否有类似的易于使用的开源软件包可以做到这一点


谢谢你的帮助!这是我第一次做这样的事情,所以任何反馈都非常感谢。

我不熟悉open search server,但我知道大多数从事搜索引擎工作的学生都使用或。阅读有关文档搜索新方法的论文,您会发现大多数方法都使用这两个API中的一个。Lucene在定义不同的秩算法方面比indri更灵活。我建议看一下这两个,看看它们是否适合您的目的。

正如您所提到的,OpenSearchServer的web爬网模板使用基于向量空间模型的关联性搜索查询。但是如果使用上一版本(v1.5.11),它也会混合反向链接的数量

您可以根据反向链接更改分数的权重,默认情况下它设置为1


我们目前正在努力提供更多的相关性控制。这将在OpenSearchServer的未来版本中可见。

谢谢!今晚我会调查这件事。