在prometheus中找出高cpu使用率查询

在prometheus中找出高cpu使用率查询,prometheus,Prometheus,我负责管理多个团队的普罗米修斯集群。平均CPU利用率为分配的4个CPU核中的0.6个。然而,有时普罗米修斯在4个内核上的CPu最大化会持续数分钟,有时甚至数小时 我假设高CPU使用率是由Grafana仪表盘造成的,它运行大量(低效)查询。由于每次都有几个grafana仪表板,我很难弄清楚是什么仪表板甚至是查询导致了我的prometheus集群的高CPU使用率。更大的问题是,这会导致所有其他仪表板都非常慢,因为prometheus实例无法及时回答查询 问题 我如何确定哪些查询占用了大量的CPU使用

我负责管理多个团队的普罗米修斯集群。平均CPU利用率为分配的4个CPU核中的0.6个。然而,有时普罗米修斯在4个内核上的CPu最大化会持续数分钟,有时甚至数小时

我假设高CPU使用率是由Grafana仪表盘造成的,它运行大量(低效)查询。由于每次都有几个grafana仪表板,我很难弄清楚是什么仪表板甚至是查询导致了我的prometheus集群的高CPU使用率。更大的问题是,这会导致所有其他仪表板都非常慢,因为prometheus实例无法及时回答查询

问题


我如何确定哪些查询占用了大量的CPU使用量,或者如何限制查询/团队的CPU使用量?

您已经确定了吗?我遇到了类似的问题。我限制了最大样本数,这在这种情况下对我有帮助。就在最近,他们在普罗米修斯知识库中解决了这个问题,但没有提供解决方案,这真是令人伤心:。您还可以看看prometheus运营商,它使用“最佳实践”部署prometheus实例,但现在我遇到了内存不足的问题,哈哈。祝你好运!