Hadoop Nutch v Solr v Nutch+;索尔
一个相关的问题已经存在,但它是在六年半前提出的。从那以后,发生了很多变化,尤其是在Nutch方面。基本上我有两个问题Hadoop Nutch v Solr v Nutch+;索尔,hadoop,solr,web-scraping,web-crawler,nutch,Hadoop,Solr,Web Scraping,Web Crawler,Nutch,一个相关的问题已经存在,但它是在六年半前提出的。从那以后,发生了很多变化,尤其是在Nutch方面。基本上我有两个问题 我们如何比较Nutch和Solr 在什么情况下,我们需要,为什么它是更好地结合这两个和爬行使用?在独立模式下(或与hadoop一起)使用它们有什么不同 在目前阶段,Nutch只负责抓取网页,这意味着访问网页、提取内容、查找更多链接并重复这个过程(我跳过了很多复杂的内容,但希望你能理解) 爬网过程的最后一个阶段是将数据存储在后端(ES/Solr是1.x分支上支持的数据存储)。因此,
在目前阶段,Nutch只负责抓取网页,这意味着访问网页、提取内容、查找更多链接并重复这个过程(我跳过了很多复杂的内容,但希望你能理解) 爬网过程的最后一个阶段是将数据存储在后端(ES/Solr是1.x分支上支持的数据存储)。因此,在这一步中,Solr发挥作用,在Nutch完成其工作后,您需要将数据存储在某个位置,以便能够在其上执行查询:这是Solr的工作 不久前,Nutch还提供了编写倒排索引的功能(如问题中所述),但(也是不久前)的决定是反对使用Solr/ES(或任何其他可以编写索引器插件的存储)。现在索引插件是可插入的,您可以为任何您想要的数据存储编写插件 摘要:Nutch是一个爬虫程序,Solr是搜索引擎,Nutch在其中存储被爬虫的数据
很好的解释。还有一个问题,Solr在基于hadoop和nutch的爬行系统中位于何处?Solr通常部署在hadoop之外,nutch运行在hadoop集群之上(在分布式爬行设置中)。虽然您可以在HDFS()上运行Solr,但这很好。谢谢你友好的回复。我接受答案。没问题,很高兴这有帮助!:)