elasticsearch 为什么状态和索引中的文档计数不同?,elasticsearch,web-crawler,kibana,stormcrawler,elasticsearch,Web Crawler,Kibana,Stormcrawler" /> elasticsearch 为什么状态和索引中的文档计数不同?,elasticsearch,web-crawler,kibana,stormcrawler,elasticsearch,Web Crawler,Kibana,Stormcrawler" />

elasticsearch 为什么状态和索引中的文档计数不同?

elasticsearch 为什么状态和索引中的文档计数不同?,elasticsearch,web-crawler,kibana,stormcrawler,elasticsearch,Web Crawler,Kibana,Stormcrawler,因此,我遵循风暴爬虫ElasticSearch教程,并与它玩 当Kibana用于搜索时,我注意到索引名“status”的点击次数远远大于“index” 例如: 在左上角,你可以看到有846个“状态”的点击量,我想这意味着它已经爬过了846页 现在使用“索引”索引,可以显示只有31次点击 我知道functionallyn索引和status是不同的,因为status只负责链接元数据。问题在于,StormCrawler似乎正在解析许多页面,而不是为它们编制索引 所以我希望在“索引”上的点击量与显示

因此,我遵循风暴爬虫ElasticSearch教程,并与它玩

当Kibana用于搜索时,我注意到索引名“status”的点击次数远远大于“index”

例如:

在左上角,你可以看到有846个“状态”的点击量,我想这意味着它已经爬过了846页

现在使用“索引”索引,可以显示只有31次点击

我知道functionallyn索引和status是不同的,因为status只负责链接元数据。问题在于,StormCrawler似乎正在解析许多页面,而不是为它们编制索引


所以我希望在“索引”上的点击量与显示的内容相同。“状态”索引包含爬虫程序获取或发现的所有URL的信息,而不是31个。

。这大致相当于crawldb(简而言之),“index”索引包含已获取、解析以及索引的页面

现在,如果您查看状态索引中的“status”字段,您会发现有不同的值指示是否已发现、获取URL等。。。看见 标记为“已发现”的对象尚未提取,因此不能在“索引”索引中。如果按status:FETCHED筛选状态索引的内容,则应该会看到一个与目标索引相当的数字

SC中的Elasticsearch模块包含kibana模板,允许您查看每个状态的URL细分。如果您还没有这样做,我建议您查看

所以我希望在“索引”上的点击量与显示的内容相同。而不仅仅是31岁


它最终会到达那里,你只需要给爬虫一些时间来完成它的工作(并且礼貌地这样做)。请记住,爬虫发现URL的速度比获取URL的速度要快。在询问速度之前,请阅读。

重定向和获取错误是造成差异的另一个可能原因。它们存在于状态索引中,但不存在于内容索引中。

好的,因此可能不适用于本教程。