Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop Nutch v Solr v Nutch+;索尔_Hadoop_Solr_Web Scraping_Web Crawler_Nutch - Fatal编程技术网

Hadoop Nutch v Solr v Nutch+;索尔

Hadoop Nutch v Solr v Nutch+;索尔,hadoop,solr,web-scraping,web-crawler,nutch,Hadoop,Solr,Web Scraping,Web Crawler,Nutch,一个相关的问题已经存在,但它是在六年半前提出的。从那以后,发生了很多变化,尤其是在Nutch方面。基本上我有两个问题 我们如何比较Nutch和Solr 在什么情况下,我们需要,为什么它是更好地结合这两个和爬行使用?在独立模式下(或与hadoop一起)使用它们有什么不同 在目前阶段,Nutch只负责抓取网页,这意味着访问网页、提取内容、查找更多链接并重复这个过程(我跳过了很多复杂的内容,但希望你能理解) 爬网过程的最后一个阶段是将数据存储在后端(ES/Solr是1.x分支上支持的数据存储)。因此,

一个相关的问题已经存在,但它是在六年半前提出的。从那以后,发生了很多变化,尤其是在Nutch方面。基本上我有两个问题

  • 我们如何比较Nutch和Solr

  • 在什么情况下,我们需要,为什么它是更好地结合这两个和爬行使用?在独立模式下(或与hadoop一起)使用它们有什么不同


  • 在目前阶段,Nutch只负责抓取网页,这意味着访问网页、提取内容、查找更多链接并重复这个过程(我跳过了很多复杂的内容,但希望你能理解)

    爬网过程的最后一个阶段是将数据存储在后端(ES/Solr是1.x分支上支持的数据存储)。因此,在这一步中,Solr发挥作用,在Nutch完成其工作后,您需要将数据存储在某个位置,以便能够在其上执行查询:这是Solr的工作

    不久前,Nutch还提供了编写倒排索引的功能(如问题中所述),但(也是不久前)的决定是反对使用Solr/ES(或任何其他可以编写索引器插件的存储)。现在索引插件是可插入的,您可以为任何您想要的数据存储编写插件

    摘要:Nutch是一个爬虫程序,Solr是搜索引擎,Nutch在其中存储被爬虫的数据

  • Nutch和Solr是两个不同的东西。Nutch只是爬行网页并解析网页内容,而Solr负责索引,即当Solr与Nutch集成时,存储Nutch爬行的内容

  • 当您在网络爬网时必须检索和存储数据时,您需要将Solr与Nutch集成。如果您不必存储或索引任何内容,那么就不需要Solr。当您希望存储Nutch爬行的数据,然后对数据执行搜索时,Solr非常有用


  • 很好的解释。还有一个问题,Solr在基于hadoop和nutch的爬行系统中位于何处?Solr通常部署在hadoop之外,nutch运行在hadoop集群之上(在分布式爬行设置中)。虽然您可以在HDFS()上运行Solr,但这很好。谢谢你友好的回复。我接受答案。没问题,很高兴这有帮助!:)