Hadoop Nutch v Solr v Nutch+；索尔_Hadoop_Solr_Web Scraping_Web Crawler_Nutch

Hadoop Nutch v Solr v Nutch+；索尔

hadoop solr web-scraping web-crawler

Hadoop Nutch v Solr v Nutch+；索尔,hadoop,solr,web-scraping,web-crawler,nutch,Hadoop,Solr,Web Scraping,Web Crawler,Nutch,一个相关的问题已经存在，但它是在六年半前提出的。从那以后，发生了很多变化，尤其是在Nutch方面。基本上我有两个问题我们如何比较Nutch和Solr 在什么情况下，我们需要，为什么它是更好地结合这两个和爬行使用？在独立模式下（或与hadoop一起）使用它们有什么不同在目前阶段，Nutch只负责抓取网页，这意味着访问网页、提取内容、查找更多链接并重复这个过程（我跳过了很多复杂的内容，但希望你能理解）爬网过程的最后一个阶段是将数据存储在后端（ES/Solr是1.x分支上支持的数据存储）。因此，

一个相关的问题已经存在，但它是在六年半前提出的。从那以后，发生了很多变化，尤其是在Nutch方面。基本上我有两个问题

我们如何比较Nutch和Solr

在什么情况下，我们需要，为什么它是更好地结合这两个和爬行使用？在独立模式下（或与hadoop一起）使用它们有什么不同

在目前阶段，Nutch只负责抓取网页，这意味着访问网页、提取内容、查找更多链接并重复这个过程（我跳过了很多复杂的内容，但希望你能理解）

爬网过程的最后一个阶段是将数据存储在后端（ES/Solr是1.x分支上支持的数据存储）。因此，在这一步中，Solr发挥作用，在Nutch完成其工作后，您需要将数据存储在某个位置，以便能够在其上执行查询：这是Solr的工作

不久前，Nutch还提供了编写倒排索引的功能（如问题中所述），但（也是不久前）的决定是反对使用Solr/ES（或任何其他可以编写索引器插件的存储）。现在索引插件是可插入的，您可以为任何您想要的数据存储编写插件

摘要：Nutch是一个爬虫程序，Solr是搜索引擎，Nutch在其中存储被爬虫的数据

Nutch和Solr是两个不同的东西。Nutch只是爬行网页并解析网页内容，而Solr负责索引，即当Solr与Nutch集成时，存储Nutch爬行的内容

当您在网络爬网时必须检索和存储数据时，您需要将Solr与Nutch集成。如果您不必存储或索引任何内容，那么就不需要Solr。当您希望存储Nutch爬行的数据，然后对数据执行搜索时，Solr非常有用

很好的解释。还有一个问题，Solr在基于hadoop和nutch的爬行系统中位于何处？Solr通常部署在hadoop之外，nutch运行在hadoop集群之上（在分布式爬行设置中）。虽然您可以在HDFS（）上运行Solr，但这很好。谢谢你友好的回复。我接受答案。没问题，很高兴这有帮助！：）