Web crawler Nutch可以抓取所有网站。是否有任何规则来抓取特定网站。在开始从特定网站抓取之前是否需要权限。?

Web crawler Nutch可以抓取所有网站。是否有任何规则来抓取特定网站。在开始从特定网站抓取之前是否需要权限。?,web-crawler,nutch,Web Crawler,Nutch,使用crawler,我们可以搜索任何特定站点,但这会降低该站点的带宽。在对特定站点进行爬网或使用nutch之前,是否有任何规则,我们可以搜索任何没有问题的站点。我想使用nutch创建垂直搜索。有人可以根据上述问题部分帮助我解决此问题吗 如果特定站点不允许robots.txt中的Nutch bot,那么如何使用Nutch搜索该站点?我们是否需要事先获得许可。在Nutch中,您可以配置可以向特定主机发送多少并发请求 您可以在conf/nutch-site.xml文件中重写此属性。 默认情况下,Nut

使用crawler,我们可以搜索任何特定站点,但这会降低该站点的带宽。在对特定站点进行爬网或使用nutch之前,是否有任何规则,我们可以搜索任何没有问题的站点。我想使用nutch创建垂直搜索。有人可以根据上述问题部分帮助我解决此问题吗


如果特定站点不允许robots.txt中的Nutch bot,那么如何使用Nutch搜索该站点?我们是否需要事先获得许可。

在Nutch中,您可以配置可以向特定主机发送多少并发请求

您可以在conf/nutch-site.xml文件中重写此属性。 默认情况下,Nutch只会每5秒向服务器发送一次请求

<property>
  <name>fetcher.server.delay</name>
  <value>5.0</value>
  <description>The number of seconds the fetcher will delay between 
   successive requests to the same server.</description>
</property>
User-Agent: *
Disallow: /