Search 在不同的工具集中,内联网搜索引擎有哪些工具?
基本要求:Search 在不同的工具集中,内联网搜索引擎有哪些工具?,search,search-engine,intranet,Search,Search Engine,Intranet,基本要求: 应该能够索引MediaWiki、Confluence、Sharepoint、GitHub:Enterprise、Askbot等内容 应该对重复数据消除结果相当明智(合流搜索如此痛苦的一个原因) 应该明确地结合一些启发式方法,比如有多少页面链接到一个文档,搜索词是否在文档的标题中,等等。如果有一种方法让用户对特定结果进行降级,这可能是一个额外的好处 应该可以进行一些调整(例如,与Sharepoint相比,更喜欢Confluence,将某些路径列入黑名单) 是否有现成的产品可以实现上
- 应该能够索引MediaWiki、Confluence、Sharepoint、GitHub:Enterprise、Askbot等内容
- 应该对重复数据消除结果相当明智(合流搜索如此痛苦的一个原因)
- 应该明确地结合一些启发式方法,比如有多少页面链接到一个文档,搜索词是否在文档的标题中,等等。如果有一种方法让用户对特定结果进行降级,这可能是一个额外的好处
- 应该可以进行一些调整(例如,与Sharepoint相比,更喜欢Confluence,将某些路径列入黑名单)
您可以尝试Solr的捆绑版本和其他工具,如或。希望花一些时间调整源代码和导入。它与OpenESP捆绑在一起,是一个开源连接器/爬虫框架,用于将连接器插入到您描述的各种系统中,并且有几个连接器是现成的。您可以尝试Moogle。它是开源的,可以在windows和IIS中轻松使用。就像谷歌一样让你觉得自己有点熟悉它。试试看Nutch+Solr并不像我希望的那样成功。我仍然在玩弄它们,但如果不熟悉这两种工具(Nutch的文档似乎有点精神分裂症),这就有点棘手了。总的来说,你会推荐走这条路线吗,还是为Solr推出我自己的爬行工具有意义?@Jun DaiBates Kobashigawa我会推荐使用Nutch,AFAIK是最好的开源网络爬行器,我不认为它会远离Elasticsearch。