Apache Nutch 2.1不同的批处理id(null)
我用ApacheNutch2.1抓取了几个站点 爬网时,我在许多页面上看到以下消息:Apache Nutch 2.1不同的批处理id(null),apache,nutch,web-crawler,Apache,Nutch,Web Crawler,我用ApacheNutch2.1抓取了几个站点 爬网时,我在许多页面上看到以下消息: 跳绳;不同的批处理id(null) 是什么原因导致此错误? 由于具有不同批处理id(null)的页面未存储在数据库中,如何解决此问题 我爬网的站点是基于drupal的,但我已经在许多其他非drupal站点上进行了尝试。我认为,消息没有问题。批处理id未分配给所有url。所以,如果批处理id为null,则跳过url。当为url分配批处理id时生成url。您能够解决此问题吗?没有。我尝试了几个星期,但没有成功。在那
跳绳;不同的批处理id(null) 是什么原因导致此错误?
由于具有不同批处理id(null)的页面未存储在数据库中,如何解决此问题
我爬网的站点是基于drupal的,但我已经在许多其他非drupal站点上进行了尝试。我认为,消息没有问题。批处理id未分配给所有url。所以,如果批处理id为null,则跳过url。当为url分配批处理id时生成url。您能够解决此问题吗?没有。我尝试了几个星期,但没有成功。在那之后,我停止使用Nutch。就像你们可以使用php爬虫一样:我找到了一个适合我需要的解决方法。Python scrapey也很棒: