Search Web爬网和Pagerank_Search_Web Crawler_Pagerank_Search Engine Bots

Search Web爬网和Pagerank

search web-crawler

Search Web爬网和Pagerank,search,web-crawler,pagerank,search-engine-bots,Search,Web Crawler,Pagerank,Search Engine Bots,我是一名计算机科学专业的学生，在网络爬网和构建搜索引擎方面我有点经验不足。此时，我正在使用最新版本的OpenSearchServer，并正在对数千个域进行爬网。当使用内置搜索引擎创建工具时，我会得到与我的查询相关的搜索结果，但它们是使用文档的向量模型进行排序的，而不是使用Pagerank算法或类似的方法。因此，排名靠前的结果只起到了微乎其微的作用，而来自维基百科等网站的高质量结果则隐藏在第二页有没有办法在开放搜索服务器上运行一个粗略的Pagerank算法？如果没有，是否有类似的易于使用的开源软

我是一名计算机科学专业的学生，在网络爬网和构建搜索引擎方面我有点经验不足。此时，我正在使用最新版本的OpenSearchServer，并正在对数千个域进行爬网。当使用内置搜索引擎创建工具时，我会得到与我的查询相关的搜索结果，但它们是使用文档的向量模型进行排序的，而不是使用Pagerank算法或类似的方法。因此，排名靠前的结果只起到了微乎其微的作用，而来自维基百科等网站的高质量结果则隐藏在第二页

有没有办法在开放搜索服务器上运行一个粗略的Pagerank算法？如果没有，是否有类似的易于使用的开源软件包可以做到这一点

谢谢你的帮助！这是我第一次做这样的事情，所以任何反馈都非常感谢。

我不熟悉open search server，但我知道大多数从事搜索引擎工作的学生都使用或。阅读有关文档搜索新方法的论文，您会发现大多数方法都使用这两个API中的一个。Lucene在定义不同的秩算法方面比indri更灵活。我建议看一下这两个，看看它们是否适合您的目的。

正如您所提到的，OpenSearchServer的web爬网模板使用基于向量空间模型的关联性搜索查询。但是如果使用上一版本（v1.5.11），它也会混合反向链接的数量

您可以根据反向链接更改分数的权重，默认情况下它设置为1

我们目前正在努力提供更多的相关性控制。这将在OpenSearchServer的未来版本中可见。

谢谢！今晚我会调查这件事。