Web crawler Apache Nutch未将网页中的内部链接添加到fetchlist_Web Crawler_Nutch

Web crawler Apache Nutch未将网页中的内部链接添加到fetchlist

web-crawler

Web crawler Apache Nutch未将网页中的内部链接添加到fetchlist,web-crawler,nutch,Web Crawler,Nutch,我使用的是ApacheNutch1.7，我面临着使用URL作为种子URL进行爬行的问题，该URL在页面中有许多内部链接，也有许多指向其他域的外部链接，我只对内部链接感兴趣但是，当对该页面进行爬网时，不会添加其中的内部链接，以便在下一轮抓取中进行抓取（我给出了100的深度）。我已经将db.ignore.internal.links设置为false，但是由于某些原因，内部链接没有添加到下一轮的获取列表中另一方面，如果我将db.ignore.external.links设置为false，它将正确地

我使用的是ApacheNutch1.7，我面临着使用URL作为种子URL进行爬行的问题，该URL在页面中有许多内部链接，也有许多指向其他域的外部链接，我只对内部链接感兴趣

但是，当对该页面进行爬网时，不会添加其中的内部链接，以便在下一轮抓取中进行抓取（我给出了100的深度）。我已经将db.ignore.internal.links设置为false，但是由于某些原因，内部链接没有添加到下一轮的获取列表中

另一方面，如果我将db.ignore.external.links设置为false，它将正确地从页面中拾取所有外部链接

这个问题在任何其他领域都不存在，有人能告诉我这个特定的页面有什么问题吗

我还附上了我用于您审阅的nucth-site.xml，请告知。

默认筛选器将忽略您的种子url，因此不会对您的页面进行爬网

编辑以下文件：

conf/automaton-urlfilter.txt

conf/regex-urlfilter.txt

替换

# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*

与

# skip URLs containing certain characters as probable queries, etc.
-.*[*!@].*