Apache Nutch 2.1不同的批处理id（null）_Apache_Nutch_Web Crawler

Apache Nutch 2.1不同的批处理id（null）

apache web-crawler

Apache Nutch 2.1不同的批处理id（null）,apache,nutch,web-crawler,Apache,Nutch,Web Crawler,我用ApacheNutch2.1抓取了几个站点爬网时，我在许多页面上看到以下消息：跳绳；不同的批处理id（null）是什么原因导致此错误？由于具有不同批处理id（null）的页面未存储在数据库中，如何解决此问题我爬网的站点是基于drupal的，但我已经在许多其他非drupal站点上进行了尝试。我认为，消息没有问题。批处理id未分配给所有url。所以，如果批处理id为null，则跳过url。当为url分配批处理id时生成url。您能够解决此问题吗？没有。我尝试了几个星期，但没有成功。在那

我用ApacheNutch2.1抓取了几个站点

爬网时，我在许多页面上看到以下消息：
跳绳；不同的批处理id（null）

是什么原因导致此错误？
由于具有不同批处理id（null）的页面未存储在数据库中，如何解决此问题

我爬网的站点是基于drupal的，但我已经在许多其他非drupal站点上进行了尝试。

我认为，消息没有问题。批处理id未分配给所有url。所以，如果批处理id为null，则跳过url。当为url分配批处理id时生成url。

您能够解决此问题吗？没有。我尝试了几个星期，但没有成功。在那之后，我停止使用Nutch。就像你们可以使用php爬虫一样：我找到了一个适合我需要的解决方法。Python scrapey也很棒：