Web crawler 如何找到Nutch爬过的网页数量?

Web crawler 如何找到Nutch爬过的网页数量?,web-crawler,nutch,Web Crawler,Nutch,在Nutch爬网结束时,是否可以找到或确定Nutch实际爬网了多少网页 将命令与-stats一起使用,这将为您提供每个状态的细分数据您可以使用readdb bin/nutch readdb crawl/crawldb -stats 示例:bin/nutch readdb crawl/dabfolder/crawldb-stats 输出如下: Statistics for CrawlDb: crawl/dabfolder/crawldb/ TOTAL urls: 563390 shortest

在Nutch爬网结束时,是否可以找到或确定Nutch实际爬网了多少网页

将命令与-stats一起使用,这将为您提供每个状态的细分数据

您可以使用
readdb

bin/nutch readdb crawl/crawldb -stats
示例:
bin/nutch readdb crawl/dabfolder/crawldb-stats

输出如下:

Statistics for CrawlDb: crawl/dabfolder/crawldb/
TOTAL urls: 563390
shortest fetch interval:    30 days, 00:00:00
avg fetch interval: 30 days, 00:43:49
longest fetch interval: 45 days, 00:00:00
earliest fetch time:    Fri Jun 02 11:57:00 IST 2017
avg of fetch times: Sun Jun 04 14:46:00 IST 2017
latest fetch time:  Mon Jul 17 11:54:00 IST 2017
retry 0:    560279
retry 1:    3111
min score:  0.0
avg score:  0.1028828
max score:  195.854
status 1 (db_unfetched):    524278
status 2 (db_fetched):  17615
status 3 (db_gone): 1143
status 4 (db_redir_temp):   8428
status 5 (db_redir_perm):   11800
status 7 (db_duplicate):    126
CrawlDb statistics: done

bin/nutch readdb crawl-stats给出错误信息。无效的例外/爬网/当前不存在。爬网完成后,我还没有接触爬网目录。