Hadoop 如何使用ApacheNutch2.3每天从web抓取100万个文档

Hadoop 如何使用ApacheNutch2.3每天从web抓取100万个文档,hadoop,web-scraping,web-crawler,hbase,nutch,Hadoop,Web Scraping,Web Crawler,Hbase,Nutch,我已经用hadoop 1.2.1和hbase 0.94.x配置了ApacheNutch2.3。我得在网上爬上几个星期。需要对大约100万个文档进行爬网。我有四个节点的hadoop集群。在此配置之前,我在单机上设置了nutch并对一些文档进行了爬网。但爬行速度不超过50k到80k。nutch的配置应该是什么,以便它可以每天抓取所需数量的文档。通常,您可以设置更大的TopN,还可以将nutch-site.xml中的http.content.limit更改为-1 希望这有帮助 Le Quoc Do这是

我已经用hadoop 1.2.1和hbase 0.94.x配置了ApacheNutch2.3。我得在网上爬上几个星期。需要对大约100万个文档进行爬网。我有四个节点的hadoop集群。在此配置之前,我在单机上设置了nutch并对一些文档进行了爬网。但爬行速度不超过50k到80k。nutch的配置应该是什么,以便它可以每天抓取所需数量的文档。

通常,您可以设置更大的TopN,还可以将nutch-site.xml中的http.content.limit更改为-1

希望这有帮助


Le Quoc Do

这是一个太宽泛的问题,缺乏我们给您一个好答案所需的详细信息。这个问题是关于如何配置nutch仅用于上述目的。您可以参考一些教程了解其详细信息吗?有关详细信息,您可以阅读nutch-site.xml文件中的描述。对不起,我没有好的教程给你。