Kubernetes 普罗米修斯(node_exporter)在从GKE 1.15更新到1.16时发布

Kubernetes 普罗米修斯(node_exporter)在从GKE 1.15更新到1.16时发布,kubernetes,google-kubernetes-engine,prometheus-node-exporter,Kubernetes,Google Kubernetes Engine,Prometheus Node Exporter,几个月以来,我一直在谷歌GKE的Kubernetes上使用Prometheus和Grafana应用程序。例如,在Grafana上,我曾监视容器\u cpu\u使用情况\u秒数\u总数 但是自从我将GKE的节点从1.15升级到1.16后,我就丢失了container.*信息 为了测试它,我创建了一个1.15版本的新集群。我从Google Marketplace安装了Prometheus,并逐步升级GKE,直到问题出现。同样,container.*监视在版本1.16中停止 我是唯一有这个问题的人吗

几个月以来,我一直在谷歌GKE的Kubernetes上使用Prometheus和Grafana应用程序。例如,在Grafana上,我曾监视
容器\u cpu\u使用情况\u秒数\u总数

但是自从我将GKE的节点从1.15升级到1.16后,我就丢失了
container.*
信息

为了测试它,我创建了一个1.15版本的新集群。我从Google Marketplace安装了Prometheus,并逐步升级GKE,直到问题出现。同样,
container.*
监视在版本1.16中停止

我是唯一有这个问题的人吗?有人找到解决办法了吗

谢谢你的帮助:)


瓦伦丁

我发现了问题所在。 对于docker或kubernetes,节点导出器不发送pods度量(
container.*
)。 必须安装Cadvisor(在Google Marketplace中,Cadvisor安装在节点导出器映像中) 由于Kubernetes 1.16,Cadvisor的配置是错误的。您应该编辑配置以解决此问题


所有信息都在这篇文章中:

你检查过普罗米修斯/grafana容器中的日志吗?在node_exporter中,我有这样的信息:
2020-09-08T09:35:35:26.426156249Z time=“2020-09-08T09:35:26Z”level=error msg=“错误:diskstats收集器在0.100237s之后失败:sdl的/host/proc/diskstats的无效行”source=“收集器.go:123”
在普罗米修斯我有这样一个:
level=warn ts=2020-09-08T09:32:12.538Z caller=klog.go:86 component=k8s_client_runtime func=Warningf msg=“/app/discovery/kubernetes/kubernetes.go:263:watch of*v1.Endpoints结束于:太旧的资源版本:183350035(183351611)”
请分享您正在使用的GKE cluster的确切版本,以及您正在使用的GCP markeplace的确切应用程序是什么?GKE cluster:1.16.13-GKE.400 markeplace中的应用程序:Prometheus&Grafana(v2.2)(node_exporter:v0.15.2;Prometheus:2.11.0)谢谢