Web crawler Nutch可以抓取所有网站。是否有任何规则来抓取特定网站。在开始从特定网站抓取之前是否需要权限。？_Web Crawler_Nutch

Web crawler Nutch可以抓取所有网站。是否有任何规则来抓取特定网站。在开始从特定网站抓取之前是否需要权限。？

web-crawler

Web crawler Nutch可以抓取所有网站。是否有任何规则来抓取特定网站。在开始从特定网站抓取之前是否需要权限。？,web-crawler,nutch,Web Crawler,Nutch,使用crawler，我们可以搜索任何特定站点，但这会降低该站点的带宽。在对特定站点进行爬网或使用nutch之前，是否有任何规则，我们可以搜索任何没有问题的站点。我想使用nutch创建垂直搜索。有人可以根据上述问题部分帮助我解决此问题吗如果特定站点不允许robots.txt中的Nutch bot，那么如何使用Nutch搜索该站点？我们是否需要事先获得许可。在Nutch中，您可以配置可以向特定主机发送多少并发请求您可以在conf/nutch-site.xml文件中重写此属性。默认情况下，Nut

使用crawler，我们可以搜索任何特定站点，但这会降低该站点的带宽。在对特定站点进行爬网或使用nutch之前，是否有任何规则，我们可以搜索任何没有问题的站点。我想使用nutch创建垂直搜索。有人可以根据上述问题部分帮助我解决此问题吗

如果特定站点不允许robots.txt中的Nutch bot，那么如何使用Nutch搜索该站点？我们是否需要事先获得许可。

在Nutch中，您可以配置可以向特定主机发送多少并发请求

您可以在conf/nutch-site.xml文件中重写此属性。默认情况下，Nutch只会每5秒向服务器发送一次请求

<property>
  <name>fetcher.server.delay</name>
  <value>5.0</value>
  <description>The number of seconds the fetcher will delay between 
   successive requests to the same server.</description>
</property>

User-Agent: *
Disallow: /