Apache 有可能让Nutch只沿着某个文件路径爬行吗?
我试图让用户ApacheNutch只沿着某个文件路径爬行。例如,如果我的url是: www.foo.com/shoes/Apache 有可能让Nutch只沿着某个文件路径爬行吗?,apache,web-crawler,nutch,Apache,Web Crawler,Nutch,我试图让用户ApacheNutch只沿着某个文件路径爬行。例如,如果我的url是: www.foo.com/shoes/ 我想继续抓取URL,如:www.foo.com/shoes/nike和www.foo.com/shoes/addidas和www.foo.com/shoes/addidas/soccer,但不抓取其他目录,如www.foo.com/costs或www.foo.com/watchs。nutch能做到这一点吗?你唯一要做的就是编写一个与你的模式匹配的正则表达式,比如 +www.f
我想继续抓取URL,如:www.foo.com/shoes/nike和www.foo.com/shoes/addidas和www.foo.com/shoes/addidas/soccer,但不抓取其他目录,如www.foo.com/costs或www.foo.com/watchs。nutch能做到这一点吗?你唯一要做的就是编写一个与你的模式匹配的正则表达式,比如 +www.foo.com/shoes/ 通过使用 -* 在
爬网urlfilter.txt的末尾