Web crawler 如何在StormCrawler中使用快速url过滤器?

Web crawler 如何在StormCrawler中使用快速url过滤器?,web-crawler,apache-storm,stormcrawler,Web Crawler,Apache Storm,Stormcrawler,我遇到了快速url过滤器。它提供了几个选项,如将筛选器应用于特定域。有人能告诉我们有关它的用法以及如何在url filters.json中配置它的更多详细信息吗?该筛选器可以像任何其他筛选器一样在urlfilters.json中配置 { "class": "com.digitalpebble.stormcrawler.filtering.regex.FastURLFilter", "name": "FastURLFilter", "params": { "file": "f

我遇到了快速url过滤器。它提供了几个选项,如将筛选器应用于特定域。有人能告诉我们有关它的用法以及如何在url filters.json中配置它的更多详细信息吗?

该筛选器可以像任何其他筛选器一样在urlfilters.json中配置

 {
  "class": "com.digitalpebble.stormcrawler.filtering.regex.FastURLFilter",
  "name": "FastURLFilter",
  "params": {
    "file": "fast.urlfilter.json"
  }
}
file参数是可选的,默认情况下采用上面给定的值


有关详细信息,请参阅和。

欢迎使用SO。请提供一个最小、完整且可验证的示例。向我们展示您最近一次尝试的代码以及您被卡住的地方。并解释为什么结果不是你所期望的。编辑您的问题以包含代码,请不要将其添加到注释中,因为它可能无法阅读。与其描述你期望发生的事情,不如展示实际发生的事情。谢谢你宝贵的回答。这个很好。但我还有一个疑问。我正在抓取许多网站,我必须为每个主机下的每个域分别应用过滤器。我怎么做?你是说每个域下的每个主机?a) 您可以仅在域级别指定b)您可以仅使用全局范围定义模式。此筛选器被称为fast,因为如果有特定于给定域的规则,它将首先应用这些规则,而不是按照RegexURLFilteri对两个网站进行爬网的顺序遍历所有规则。每个网站都有一个域“/help/”。我必须抓取一个网站的“帮助”域,而忽略另一个网站的“帮助”域。storm crawler是否提供了一种方法?[{“范围”:“域:helpdomain.net”,“模式”:[“AllowPath/help/”,“DenyPath.+”]},{“范围”:“域:helplessdomain.net”,“模式”:[“DenyPath/help/“]}]