Apache 有可能让Nutch只沿着某个文件路径爬行吗?

Apache 有可能让Nutch只沿着某个文件路径爬行吗?,apache,web-crawler,nutch,Apache,Web Crawler,Nutch,我试图让用户ApacheNutch只沿着某个文件路径爬行。例如,如果我的url是: www.foo.com/shoes/ 我想继续抓取URL,如:www.foo.com/shoes/nike和www.foo.com/shoes/addidas和www.foo.com/shoes/addidas/soccer,但不抓取其他目录,如www.foo.com/costs或www.foo.com/watchs。nutch能做到这一点吗?你唯一要做的就是编写一个与你的模式匹配的正则表达式,比如 +www.f

我试图让用户ApacheNutch只沿着某个文件路径爬行。例如,如果我的url是:

www.foo.com/shoes/


我想继续抓取URL,如:www.foo.com/shoes/nike和www.foo.com/shoes/addidas和www.foo.com/shoes/addidas/soccer,但不抓取其他目录,如www.foo.com/costs或www.foo.com/watchs。nutch能做到这一点吗?

你唯一要做的就是编写一个与你的模式匹配的正则表达式,比如

+www.foo.com/shoes/

通过使用

-*

爬网urlfilter.txt的末尾