Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/apache/9.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache Nutch 2.1不同的批处理id(null)_Apache_Nutch_Web Crawler - Fatal编程技术网

Apache Nutch 2.1不同的批处理id(null)

Apache Nutch 2.1不同的批处理id(null),apache,nutch,web-crawler,Apache,Nutch,Web Crawler,我用ApacheNutch2.1抓取了几个站点 爬网时,我在许多页面上看到以下消息: 跳绳;不同的批处理id(null) 是什么原因导致此错误? 由于具有不同批处理id(null)的页面未存储在数据库中,如何解决此问题 我爬网的站点是基于drupal的,但我已经在许多其他非drupal站点上进行了尝试。我认为,消息没有问题。批处理id未分配给所有url。所以,如果批处理id为null,则跳过url。当为url分配批处理id时生成url。您能够解决此问题吗?没有。我尝试了几个星期,但没有成功。在那

我用ApacheNutch2.1抓取了几个站点

爬网时,我在许多页面上看到以下消息:
跳绳;不同的批处理id(null)

是什么原因导致此错误?
由于具有不同批处理id(null)的页面未存储在数据库中,如何解决此问题


我爬网的站点是基于drupal的,但我已经在许多其他非drupal站点上进行了尝试。

我认为,消息没有问题。批处理id未分配给所有url。所以,如果批处理id为null,则跳过url。当为url分配批处理id时生成url。

您能够解决此问题吗?没有。我尝试了几个星期,但没有成功。在那之后,我停止使用Nutch。就像你们可以使用php爬虫一样:我找到了一个适合我需要的解决方法。Python scrapey也很棒: