如何在ApacheNutch中更新crawldb中的获取状态？_Apache_Web Crawler_Nutch

如何在ApacheNutch中更新crawldb中的获取状态？

apache web-crawler

如何在ApacheNutch中更新crawldb中的获取状态？,apache,web-crawler,nutch,Apache,Web Crawler,Nutch,我用ApacheNutch做了网页爬行。。。。。我已经打了两轮了。它生成了一个爬网数据库，包含21个url作为抓取状态，537个url作为未抓取状态。出于某种原因，我想将crawldb中所有链接的状态更新为已获取。有没有办法更新状态？我找到了问题的答案，想和大家分享。在获取了两轮之后，我用命令“bin/nutch updatedb crawl/crawldb$s2”更新了数据库。然后数据库将更新为新的URL，状态为“未蚀刻”。但如果执行“bin/nutch updatedb crawl/craw

我用ApacheNutch做了网页爬行。。。。。我已经打了两轮了。它生成了一个爬网数据库，包含21个url作为抓取状态，537个url作为未抓取状态。出于某种原因，我想将crawldb中所有链接的状态更新为已获取。有没有办法更新状态？

我找到了问题的答案，想和大家分享。在获取了两轮之后，我用命令“bin/nutch updatedb crawl/crawldb$s2”更新了数据库。然后数据库将更新为新的URL，状态为“未蚀刻”。但如果执行“bin/nutch updatedb crawl/crawldb$s2-noAdditions”，则不会向数据库添加新URL，并将现有URL状态设置为“fetched”