如何在Nutch中找到未蚀刻URL的深度和分数

如何在Nutch中找到未蚀刻URL的深度和分数,nutch,web-crawler,Nutch,Web Crawler,嗨,我用Nutch1.5.1和以下参数爬网了一个网站-深度=20,顶部=800。现在我有相当多的URL(大约6K)状态为db_unfetched。我想确定两件事: 为什么他们的地位没有被改变。是否有某种方法可以追踪URL在爬网时被忽略的原因。我检查了URL过滤器(它们都已就位) 我可以找出Nutch发现每个URL的深度吗。是否所有未蚀刻的页面(所有这些页面都有内容,因此没有404错误)都在深度20处找到,或者某些页面甚至在达到该深度之前被忽略 我再也爬不起那个网站了,有没有什么命令可以用来追踪U

嗨,我用Nutch1.5.1和以下参数爬网了一个网站-深度=20,顶部=800。现在我有相当多的URL(大约6K)状态为db_unfetched。我想确定两件事:

  • 为什么他们的地位没有被改变。是否有某种方法可以追踪URL在爬网时被忽略的原因。我检查了URL过滤器(它们都已就位)

  • 我可以找出Nutch发现每个URL的深度吗。是否所有未蚀刻的页面(所有这些页面都有内容,因此没有404错误)都在深度20处找到,或者某些页面甚至在达到该深度之前被忽略


  • 我再也爬不起那个网站了,有没有什么命令可以用来追踪URL的得分和识别它们的深度

    当Nutch忽略一个URL时,它会打印出一些东西。你检查了吗?没有,我看不出日志中是否有任何被忽略的URL。我解决了这个问题,它是由topK引起的,它应该有足够大的值,否则每个深度都会丢失很多页面。@user2204324如果您解决了自己的问题,您可以将其添加为答案并标记为答案。你不会因此赢得任何声誉,但这是正确的做法。关于如何跟踪url被发现和忽略的深度,目前还没有解决方案。不过,为了您的方便,我会标记它已解决!