Monitoring 石墨不总是在最后5-10分钟返回

Monitoring 石墨不总是在最后5-10分钟返回,monitoring,metrics,graphite,graphite-carbon,Monitoring,Metrics,Graphite,Graphite Carbon,我们有一个相当大的石墨装置,过去是多个Python继电器和碳缓存。为了简单和性能,它现在迁移到了Go版本。 我们有近200万个传入指标(仅Pickle格式)。 通过写入大约100个点/更新,我们能够在合理的时间内将数据下载到磁盘。AWS中的缓存和web位于c5.9xlarge(36vCPU和72 GB RAM)和EBS存储器上,IOPS为25k。 通过Python Graphite web(最新版本)、Gunicorn和NginX进行查询。9s Memcached查询缓存。 我们还通过从该系统获

我们有一个相当大的石墨装置,过去是多个Python继电器和碳缓存。为了简单和性能,它现在迁移到了Go版本。 我们有近200万个传入指标(仅Pickle格式)。 通过写入大约100个点/更新,我们能够在合理的时间内将数据下载到磁盘。AWS中的缓存和web位于c5.9xlarge(36vCPU和72 GB RAM)和EBS存储器上,IOPS为25k。 通过Python Graphite web(最新版本)、Gunicorn和NginX进行查询。9s Memcached查询缓存。 我们还通过从该系统获取数据来使用该系统进行监控

有时我们会错过最新的数据,不仅仅是最后一次测量,而是5-15分钟的时间段。 我相信这些数据仍在缓存中,尚未写入磁盘。我们在Grafana和分析数据的监控系统(仅限空值)中都看到了这一点。在下一次重新加载时,所有数据都可能恢复正常。 任何关于这会是什么的想法-以及如何解决它-因为它会触发我们的许多警报系统。 这是一个超时的地方-我们永远不必等待任何数据。日志记录显示,在大多数情况下,获取查询数据所需的时间不到一毫秒。即使返回空数据。 替代前端?Carbonapi或其他接口(grpc)?是缓存(去碳)还是网络前端失败了

我希望有人能给我一个正确方向的提示,或者分享他们的一些经验

你好,约翰