如何在ApacheNutch中更新crawldb中的获取状态?

如何在ApacheNutch中更新crawldb中的获取状态?,apache,web-crawler,nutch,Apache,Web Crawler,Nutch,我用ApacheNutch做了网页爬行。。。。。我已经打了两轮了。它生成了一个爬网数据库,包含21个url作为抓取状态,537个url作为未抓取状态。出于某种原因,我想将crawldb中所有链接的状态更新为已获取。有没有办法更新状态?我找到了问题的答案,想和大家分享。在获取了两轮之后,我用命令“bin/nutch updatedb crawl/crawldb$s2”更新了数据库。然后数据库将更新为新的URL,状态为“未蚀刻”。但如果执行“bin/nutch updatedb crawl/craw

我用ApacheNutch做了网页爬行。。。。。我已经打了两轮了。它生成了一个爬网数据库,包含21个url作为抓取状态,537个url作为未抓取状态。出于某种原因,我想将crawldb中所有链接的状态更新为已获取。有没有办法更新状态?

我找到了问题的答案,想和大家分享。在获取了两轮之后,我用命令“bin/nutch updatedb crawl/crawldb$s2”更新了数据库。然后数据库将更新为新的URL,状态为“未蚀刻”。但如果执行“bin/nutch updatedb crawl/crawldb$s2-noAdditions”,则不会向数据库添加新URL,并将现有URL状态设置为“fetched”