Web crawler Apache Nutch未将网页中的内部链接添加到fetchlist

Web crawler Apache Nutch未将网页中的内部链接添加到fetchlist,web-crawler,nutch,Web Crawler,Nutch,我使用的是ApacheNutch1.7,我面临着使用URL作为种子URL进行爬行的问题,该URL在页面中有许多内部链接,也有许多指向其他域的外部链接,我只对内部链接感兴趣 但是,当对该页面进行爬网时,不会添加其中的内部链接,以便在下一轮抓取中进行抓取(我给出了100的深度)。我已经将db.ignore.internal.links设置为false,但是由于某些原因,内部链接没有添加到下一轮的获取列表中 另一方面,如果我将db.ignore.external.links设置为false,它将正确地

我使用的是ApacheNutch1.7,我面临着使用URL作为种子URL进行爬行的问题,该URL在页面中有许多内部链接,也有许多指向其他域的外部链接,我只对内部链接感兴趣

但是,当对该页面进行爬网时,不会添加其中的内部链接,以便在下一轮抓取中进行抓取(我给出了100的深度)。我已经将db.ignore.internal.links设置为false,但是由于某些原因,内部链接没有添加到下一轮的获取列表中

另一方面,如果我将db.ignore.external.links设置为false,它将正确地从页面中拾取所有外部链接

这个问题在任何其他领域都不存在,有人能告诉我这个特定的页面有什么问题吗


我还附上了我用于您审阅的nucth-site.xml,请告知。

默认筛选器将忽略您的种子url,因此不会对您的页面进行爬网

编辑以下文件:

conf/automaton-urlfilter.txt

conf/regex-urlfilter.txt

替换

# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*

# skip URLs containing certain characters as probable queries, etc.
-.*[*!@].*