Web crawler 如何在StormCrawler中使用快速url过滤器？_Web Crawler_Apache Storm_Stormcrawler

Web crawler 如何在StormCrawler中使用快速url过滤器？

web-crawler apache-storm

Web crawler 如何在StormCrawler中使用快速url过滤器？,web-crawler,apache-storm,stormcrawler,Web Crawler,Apache Storm,Stormcrawler,我遇到了快速url过滤器。它提供了几个选项，如将筛选器应用于特定域。有人能告诉我们有关它的用法以及如何在url filters.json中配置它的更多详细信息吗？该筛选器可以像任何其他筛选器一样在urlfilters.json中配置 { "class": "com.digitalpebble.stormcrawler.filtering.regex.FastURLFilter", "name": "FastURLFilter", "params": { "file": "f

我遇到了快速url过滤器。它提供了几个选项，如将筛选器应用于特定域。有人能告诉我们有关它的用法以及如何在url filters.json中配置它的更多详细信息吗？

该筛选器可以像任何其他筛选器一样在urlfilters.json中配置

 {
  "class": "com.digitalpebble.stormcrawler.filtering.regex.FastURLFilter",
  "name": "FastURLFilter",
  "params": {
    "file": "fast.urlfilter.json"
  }
}

file参数是可选的，默认情况下采用上面给定的值

有关详细信息，请参阅和。

欢迎使用SO。请提供一个最小、完整且可验证的示例。向我们展示您最近一次尝试的代码以及您被卡住的地方。并解释为什么结果不是你所期望的。编辑您的问题以包含代码，请不要将其添加到注释中，因为它可能无法阅读。与其描述你期望发生的事情，不如展示实际发生的事情。谢谢你宝贵的回答。这个很好。但我还有一个疑问。我正在抓取许多网站，我必须为每个主机下的每个域分别应用过滤器。我怎么做？你是说每个域下的每个主机？a）您可以仅在域级别指定b）您可以仅使用全局范围定义模式。此筛选器被称为fast，因为如果有特定于给定域的规则，它将首先应用这些规则，而不是按照RegexURLFilteri对两个网站进行爬网的顺序遍历所有规则。每个网站都有一个域“/help/”。我必须抓取一个网站的“帮助”域，而忽略另一个网站的“帮助”域。storm crawler是否提供了一种方法？[{“范围”：“域：helpdomain.net”，“模式”：[“AllowPath/help/”，“DenyPath.+”]}，{“范围”：“域：helplessdomain.net”，“模式”：[“DenyPath/help/“]}]