<img src="//i.stack.imgur.com/RUiNP.png" height="16" width="18" alt="" class="sponsor tag img">elasticsearch 为什么状态和索引中的文档计数不同？_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Web Crawler_Kibana_Stormcrawler

elasticsearch 为什么状态和索引中的文档计数不同？

web-crawler kibana

elasticsearch 为什么状态和索引中的文档计数不同？,elasticsearch,web-crawler,kibana,stormcrawler,elasticsearch,Web Crawler,Kibana,Stormcrawler,因此，我遵循风暴爬虫ElasticSearch教程，并与它玩当Kibana用于搜索时，我注意到索引名“status”的点击次数远远大于“index” 例如：在左上角，你可以看到有846个“状态”的点击量，我想这意味着它已经爬过了846页现在使用“索引”索引，可以显示只有31次点击我知道functionallyn索引和status是不同的，因为status只负责链接元数据。问题在于，StormCrawler似乎正在解析许多页面，而不是为它们编制索引所以我希望在“索引”上的点击量与显示

因此，我遵循风暴爬虫ElasticSearch教程，并与它玩

当Kibana用于搜索时，我注意到索引名“status”的点击次数远远大于“index”

例如：

在左上角，你可以看到有846个“状态”的点击量，我想这意味着它已经爬过了846页

现在使用“索引”索引，可以显示只有31次点击

我知道functionallyn索引和status是不同的，因为status只负责链接元数据。问题在于，StormCrawler似乎正在解析许多页面，而不是为它们编制索引

所以我希望在“索引”上的点击量与显示的内容相同。“状态”索引包含爬虫程序获取或发现的所有URL的信息，而不是31个。

。这大致相当于crawldb（简而言之），“index”索引包含已获取、解析以及索引的页面

现在，如果您查看状态索引中的“status”字段，您会发现有不同的值指示是否已发现、获取URL等。。。看见标记为“已发现”的对象尚未提取，因此不能在“索引”索引中。如果按status:FETCHED筛选状态索引的内容，则应该会看到一个与目标索引相当的数字

SC中的Elasticsearch模块包含kibana模板，允许您查看每个状态的URL细分。如果您还没有这样做，我建议您查看

所以我希望在“索引”上的点击量与显示的内容相同。而不仅仅是31岁

它最终会到达那里，你只需要给爬虫一些时间来完成它的工作（并且礼貌地这样做）。请记住，爬虫发现URL的速度比获取URL的速度要快。在询问速度之前，请阅读。

重定向和获取错误是造成差异的另一个可能原因。它们存在于状态索引中，但不存在于内容索引中。

好的，因此可能不适用于本教程。