Solr 阿帕奇·努奇·唐'；t爬网网站_Solr_Web Crawler_Nutch

Solr 阿帕奇·努奇·唐'；t爬网网站

solr web-crawler

Solr 阿帕奇·努奇·唐'；t爬网网站,solr,web-crawler,nutch,Solr,Web Crawler,Nutch,我已经安装了ApacheNutch用于web爬行。我想爬网一个包含以下内容的网站robots.txt： User-Agent: * Disallow: / 有没有办法用apache nutch抓取此网站？您可以在nutch-site.xml中将属性“Protocol.CHECK\u ROBOTS”设置为false以忽略ROBOTS.txt。您可以在nutch-site.xml中将属性“Protocol.CHECK\u ROBOTS”设置为false以忽略ROBOTS.txt。在nutch-si

我已经安装了ApacheNutch用于web爬行。我想爬网一个包含以下内容的网站

robots.txt

：

User-Agent: *
Disallow: /

有没有办法用apache nutch抓取此网站？

您可以在nutch-site.xml中将属性“Protocol.CHECK\u ROBOTS”设置为false以忽略ROBOTS.txt。

在nutch-site.xml中将Protocol.plugin.CHECK.ROBOTS设置为false

或

您可以注释掉执行机器人检查的代码。在Fetcher.java中，第605-614行正在执行检查。评论整个街区

      if (!rules.isAllowed(fit.u)) {
        // unblock
        fetchQueues.finishFetchItem(fit, true);
        if (LOG.isDebugEnabled()) {
          LOG.debug("Denied by robots.txt: " + fit.url);
        }
        output(fit.url, fit.datum, null, ProtocolStatus.STATUS_ROBOTS_DENIED, CrawlDatum.STATUS_FETCH_GONE);
        reporter.incrCounter("FetcherStatus", "robots_denied", 1);
        continue;
      }

在nutch-site.xml中，将protocol.plugin.check.robots设置为false

或

您可以注释掉执行机器人检查的代码。在Fetcher.java中，第605-614行正在执行检查。评论整个街区

      if (!rules.isAllowed(fit.u)) {
        // unblock
        fetchQueues.finishFetchItem(fit, true);
        if (LOG.isDebugEnabled()) {
          LOG.debug("Denied by robots.txt: " + fit.url);
        }
        output(fit.url, fit.datum, null, ProtocolStatus.STATUS_ROBOTS_DENIED, CrawlDatum.STATUS_FETCH_GONE);
        reporter.incrCounter("FetcherStatus", "robots_denied", 1);
        continue;
      }

我怎么能做到？（设置协议。检查机器人“false”）我该怎么做？（设置协议。检查机器人“false”）我该如何设置协议。检查机器人在nutch-site中是否为false.xml我该如何设置协议。检查机器人在nutch-site中是否为false.xml我该如何设置协议。检查机器人在nutch-site.xml中是否为false