Web crawler 将爬网限制为种子url的子页面_Web Crawler_Stormcrawler

Web crawler 将爬网限制为种子url的子页面

web-crawler

Web crawler 将爬网限制为种子url的子页面,web-crawler,stormcrawler,Web Crawler,Stormcrawler,我有一套，它根据种子抓取网页 { “类”：“com.digitalpebble.stormcrawler.filtering.host.HostURLFilter”， “名称”：“HostURLFilter”， “参数”：{ “ignoreOutsideHost”：false， “ignoreOutsideDomain”：真 } } 但是，我怎样才能限制到种子的子页面呢。例如，如果我有一个种子为“”，通过上述设置，爬虫程序也会爬网并添加像“”及其子页面等URL 如何将爬网限制为“”以及此种

我有一套，它根据种子抓取网页

{ “类”：“com.digitalpebble.stormcrawler.filtering.host.HostURLFilter”， “名称”：“HostURLFilter”， “参数”：{ “ignoreOutsideHost”：false， “ignoreOutsideDomain”：真 } }

但是，我怎样才能限制到种子的子页面呢。例如，如果我有一个种子为“”，通过上述设置，爬虫程序也会爬网并添加像“”及其子页面等URL

如何将爬网限制为“”以及此种子的子页面，如“”，等等

TIA。

只需在HostUrlFilter的配置中将ignoreOutsideHost设置为true。

谢谢Julien。有没有办法排除一些url模式，比如使用regex等。例如：对种子域的所有内容进行爬网，但跳过url中包含/exclude/的所有内容。请参阅上列出的url筛选器