如何在Nutch中找到未蚀刻URL的深度和分数_Nutch_Web Crawler

如何在Nutch中找到未蚀刻URL的深度和分数

web-crawler

如何在Nutch中找到未蚀刻URL的深度和分数,nutch,web-crawler,Nutch,Web Crawler,嗨，我用Nutch1.5.1和以下参数爬网了一个网站-深度=20，顶部=800。现在我有相当多的URL（大约6K）状态为db_unfetched。我想确定两件事：为什么他们的地位没有被改变。是否有某种方法可以追踪URL在爬网时被忽略的原因。我检查了URL过滤器（它们都已就位）我可以找出Nutch发现每个URL的深度吗。是否所有未蚀刻的页面（所有这些页面都有内容，因此没有404错误）都在深度20处找到，或者某些页面甚至在达到该深度之前被忽略我再也爬不起那个网站了，有没有什么命令可以用来追踪U

嗨，我用Nutch1.5.1和以下参数爬网了一个网站-深度=20，顶部=800。现在我有相当多的URL（大约6K）状态为db_unfetched。我想确定两件事：

为什么他们的地位没有被改变。是否有某种方法可以追踪URL在爬网时被忽略的原因。我检查了URL过滤器（它们都已就位）

我可以找出Nutch发现每个URL的深度吗。是否所有未蚀刻的页面（所有这些页面都有内容，因此没有404错误）都在深度20处找到，或者某些页面甚至在达到该深度之前被忽略

我再也爬不起那个网站了，有没有什么命令可以用来追踪URL的得分和识别它们的深度

当Nutch忽略一个URL时，它会打印出一些东西。你检查了吗？没有，我看不出日志中是否有任何被忽略的URL。我解决了这个问题，它是由topK引起的，它应该有足够大的值，否则每个深度都会丢失很多页面。@user2204324如果您解决了自己的问题，您可以将其添加为答案并标记为答案。你不会因此赢得任何声誉，但这是正确的做法。关于如何跟踪url被发现和忽略的深度，目前还没有解决方案。不过，为了您的方便，我会标记它已解决！