Web crawler 在flow stormcrawler中禁用子域_Web Crawler_Stormcrawler

Web crawler 在flow stormcrawler中禁用子域

web-crawler

Web crawler 在flow stormcrawler中禁用子域,web-crawler,stormcrawler,Web Crawler,Stormcrawler,如何在流媒体中禁用注入子域？现在，如果我们在流中注入www.ebay.com而不是在流中注入，我们就有了子域页面：my.ebay.com，community.ebay.com，…，您可以通过在urlfilters.json中将ignoreOutsideHost设置为true，将HostURLFilter配置为排除种子主机名之外的URL 我在target/classes/urlfilters.json文件中更改了它，并重新启动了流，但我看到了相同的结果。我将尝试查看源代码并调试它…在src/ma

如何在流媒体中禁用注入子域？

现在，如果我们在流中注入

www.ebay.com

而不是在流中注入，我们就有了子域页面：

my.ebay.com

，

community.ebay.com

，…

，您可以通过在urlfilters.json中将ignoreOutsideHost设置为true，将HostURLFilter配置为排除种子主机名之外的URL

我在target/classes/urlfilters.json文件中更改了它，并重新启动了流，但我看到了相同的结果。我将尝试查看源代码并调试它…在src/main/resources中更改它并重新编译。你是怎么运行代码的？我想你是对的！运行：我在IDEA Intellij中调用“package”并：>>storm jar target/es-mycrawl-1.0-SNAPSHOT.jar org.apache.storm.flux.flux——远程es-crawler.flux谢谢Julien Nioche！我应该在项目资源中更改这个json，然后编译一次。

{
  "class": "com.digitalpebble.stormcrawler.filtering.host.HostURLFilter",
  "name": "HostURLFilter",
  "params": {
    "ignoreOutsideHost": true,
    "ignoreOutsideDomain": true
  }
}