Web crawler 在flow stormcrawler中禁用子域

Web crawler 在flow stormcrawler中禁用子域,web-crawler,stormcrawler,Web Crawler,Stormcrawler,如何在流媒体中禁用注入子域? 现在,如果我们在流中注入www.ebay.com而不是在流中注入,我们就有了子域页面:my.ebay.com,community.ebay.com,…,您可以通过在urlfilters.json中将ignoreOutsideHost设置为true,将HostURLFilter配置为排除种子主机名之外的URL 我在target/classes/urlfilters.json文件中更改了它,并重新启动了流,但我看到了相同的结果。我将尝试查看源代码并调试它…在src/ma

如何在流媒体中禁用注入子域?
现在,如果我们在流中注入
www.ebay.com
而不是在流中注入,我们就有了子域页面:
my.ebay.com
community.ebay.com
,…

,您可以通过在urlfilters.json中将ignoreOutsideHost设置为true,将HostURLFilter配置为排除种子主机名之外的URL


我在target/classes/urlfilters.json文件中更改了它,并重新启动了流,但我看到了相同的结果。我将尝试查看源代码并调试它…在src/main/resources中更改它并重新编译。你是怎么运行代码的?我想你是对的!运行:我在IDEA Intellij中调用“package”并:>>storm jar target/es-mycrawl-1.0-SNAPSHOT.jar org.apache.storm.flux.flux——远程es-crawler.flux谢谢Julien Nioche!我应该在项目资源中更改这个json,然后编译一次。
{
  "class": "com.digitalpebble.stormcrawler.filtering.host.HostURLFilter",
  "name": "HostURLFilter",
  "params": {
    "ignoreOutsideHost": true,
    "ignoreOutsideDomain": true
  }
}