Apache 有可能让Nutch只沿着某个文件路径爬行吗？_Apache_Web Crawler_Nutch

Apache 有可能让Nutch只沿着某个文件路径爬行吗？

apache web-crawler

Apache 有可能让Nutch只沿着某个文件路径爬行吗？,apache,web-crawler,nutch,Apache,Web Crawler,Nutch,我试图让用户ApacheNutch只沿着某个文件路径爬行。例如，如果我的url是： www.foo.com/shoes/ 我想继续抓取URL，如：www.foo.com/shoes/nike和www.foo.com/shoes/addidas和www.foo.com/shoes/addidas/soccer，但不抓取其他目录，如www.foo.com/costs或www.foo.com/watchs。nutch能做到这一点吗？你唯一要做的就是编写一个与你的模式匹配的正则表达式，比如 +www.f

我试图让用户ApacheNutch只沿着某个文件路径爬行。例如，如果我的url是：

www.foo.com/shoes/

我想继续抓取URL，如：www.foo.com/shoes/nike和www.foo.com/shoes/addidas和www.foo.com/shoes/addidas/soccer，但不抓取其他目录，如www.foo.com/costs或www.foo.com/watchs。nutch能做到这一点吗？

你唯一要做的就是编写一个与你的模式匹配的正则表达式，比如

+www.foo.com/shoes/

通过使用

在

爬网urlfilter.txt的末尾