elasticsearch Stormcrawler-es.status.filterQuery如何工作?,elasticsearch,web-crawler,stormcrawler,elasticsearch,Web Crawler,Stormcrawler" /> elasticsearch Stormcrawler-es.status.filterQuery如何工作?,elasticsearch,web-crawler,stormcrawler,elasticsearch,Web Crawler,Stormcrawler" />

elasticsearch Stormcrawler-es.status.filterQuery如何工作?

elasticsearch Stormcrawler-es.status.filterQuery如何工作?,elasticsearch,web-crawler,stormcrawler,elasticsearch,Web Crawler,Stormcrawler,我正在使用stormcrawler将数据放入一些Elasticsearch索引中,我在状态索引中有一组URL,具有各种状态-已发现、已获取、错误等 我想知道我是否可以告诉StormCrawler只抓取https和状态为:DISCOVERED的URL,以及这是否真的有效。我将es-conf.yaml设置如下: es.status.filterQuery: "-(url:https* AND status:DISCOVERED)" 对吗?SC如何使用es.status.filterQuery?它是

我正在使用stormcrawler将数据放入一些Elasticsearch索引中,我在状态索引中有一组URL,具有各种状态-已发现、已获取、错误等

我想知道我是否可以告诉StormCrawler只抓取https和状态为:DISCOVERED的URL,以及这是否真的有效。我将es-conf.yaml设置如下:

es.status.filterQuery: "-(url:https* AND status:DISCOVERED)"
对吗?SC如何使用es.status.filterQuery?它是否运行搜索并将该值作为筛选器应用,以仅检索要获取的适用文档?

请参阅

SC如何使用es.status.filterQuery?它运行一个 搜索并应用该值作为筛选器,以仅检索适用的 要取的文件

是的,它过滤发送到ES碎片的查询。例如,这对于处理爬网的子集非常有用

它是一个正过滤器,即文档必须与查询匹配才能检索;您需要删除-以便它执行您描述的操作