<img src="//i.stack.imgur.com/RUiNP.png" height="16" width="18" alt="" class="sponsor tag img">elasticsearch Stormcrawler-es.status.filterQuery如何工作？_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Web Crawler_Stormcrawler

elasticsearch Stormcrawler-es.status.filterQuery如何工作？

web-crawler

elasticsearch Stormcrawler-es.status.filterQuery如何工作？,elasticsearch,web-crawler,stormcrawler,elasticsearch,Web Crawler,Stormcrawler,我正在使用stormcrawler将数据放入一些Elasticsearch索引中，我在状态索引中有一组URL，具有各种状态-已发现、已获取、错误等我想知道我是否可以告诉StormCrawler只抓取https和状态为：DISCOVERED的URL，以及这是否真的有效。我将es-conf.yaml设置如下： es.status.filterQuery: "-(url:https* AND status:DISCOVERED)" 对吗？SC如何使用es.status.filterQuery？它是

我正在使用stormcrawler将数据放入一些Elasticsearch索引中，我在状态索引中有一组URL，具有各种状态-已发现、已获取、错误等

我想知道我是否可以告诉StormCrawler只抓取https和状态为：DISCOVERED的URL，以及这是否真的有效。我将es-conf.yaml设置如下：

es.status.filterQuery: "-(url:https* AND status:DISCOVERED)"

对吗？SC如何使用es.status.filterQuery？它是否运行搜索并将该值作为筛选器应用，以仅检索要获取的适用文档？

请参阅

SC如何使用es.status.filterQuery？它运行一个搜索并应用该值作为筛选器，以仅检索适用的要取的文件

是的，它过滤发送到ES碎片的查询。例如，这对于处理爬网的子集非常有用

它是一个正过滤器，即文档必须与查询匹配才能检索；您需要删除-以便它执行您描述的操作