Google kubernetes engine 与普罗米修斯有关的gke度量代理多重错误

Google kubernetes engine 与普罗米修斯有关的gke度量代理多重错误,google-kubernetes-engine,Google Kubernetes Engine,我在GKE上部署了一个新应用程序,我发现GKE仪表板在GKE metrics agent上有数千个错误: 它使用了大量的资源 我检查了日志,看到了所有与普罗米修斯有关的错误,但我没有找到解决这些错误的方法: 群集版本: 1.18.12-gke.1206 这些错误是什么,我如何修复?看起来有些GKE1.18.12-GKE-X版本存在缺陷,GKE metrics agent产生大量的警告消息 已存在此错误的公共问题跟踪器记录单。您可以关注有关此问题的更新。您还可以使用(+1)表示您受到此错误的影

我在GKE上部署了一个新应用程序,我发现GKE仪表板在GKE metrics agent上有数千个错误:

它使用了大量的资源

我检查了日志,看到了所有与普罗米修斯有关的错误,但我没有找到解决这些错误的方法:

群集版本: 1.18.12-gke.1206


这些错误是什么,我如何修复?

看起来有些GKE
1.18.12-GKE-X
版本存在缺陷,
GKE metrics agent
产生大量的
警告
消息

已存在此错误的
公共问题跟踪器
记录单。您可以关注有关此问题的更新。您还可以使用
(+1)
表示您受到此错误的影响


这个问题的解决方法是使用更新的版本-
1.18.14-gke.1200+

你能分享一下你是如何部署普罗米修斯的吗?你能检查一下你的吊舱是否都按预期运行吗?你能描述一下-ngke metrics代理吊舱和普罗米修斯吊舱吗?另外,您能否
$kubectl记录gke和普罗米修斯吊舱的日志-n
,以检查您在那里发现了哪些错误?在@PjoterS中可以找到一些额外的调试步骤这是一个新的GKE集群上的情况,没有安装任何额外的东西,例如Prometheus AFAIK。您是如何部署这个Prometheus的?您是使用helm、deployment还是Google Click来部署?我想在我的测试集群上复制这个。我还没有部署Prometheus,只是应用了我们的自定义部署,正如@dustinmoris所说,这是一个没有安装Prometheus的新集群。谢谢,但是升级到1.18.14-gke.1200+是不可能的。常规发布频道在1.18.12-*上,快速频道在1.19上。*,据我所知,两者之间没有任何区别。现在升级到快速频道:)@dustinmoris您也可以使用
静态版本
。在静态版本下拉菜单中,您可以选择版本
1.18.14-gke.1200
1.18.14-gke.1600
1.18.15-gke.1100
1.18.15-gke.1500
。但升级到1.19并没有解决这一问题。我升级到1.19.7-gke.1500时已经解决了,谢谢@PjoterS