Kubernetes 普罗米修斯(node_exporter)在从GKE 1.15更新到1.16时发布
几个月以来,我一直在谷歌GKE的Kubernetes上使用Prometheus和Grafana应用程序。例如,在Grafana上,我曾监视Kubernetes 普罗米修斯(node_exporter)在从GKE 1.15更新到1.16时发布,kubernetes,google-kubernetes-engine,prometheus-node-exporter,Kubernetes,Google Kubernetes Engine,Prometheus Node Exporter,几个月以来,我一直在谷歌GKE的Kubernetes上使用Prometheus和Grafana应用程序。例如,在Grafana上,我曾监视容器\u cpu\u使用情况\u秒数\u总数 但是自从我将GKE的节点从1.15升级到1.16后,我就丢失了container.*信息 为了测试它,我创建了一个1.15版本的新集群。我从Google Marketplace安装了Prometheus,并逐步升级GKE,直到问题出现。同样,container.*监视在版本1.16中停止 我是唯一有这个问题的人吗
容器\u cpu\u使用情况\u秒数\u总数
但是自从我将GKE的节点从1.15升级到1.16后,我就丢失了container.*
信息
为了测试它,我创建了一个1.15版本的新集群。我从Google Marketplace安装了Prometheus,并逐步升级GKE,直到问题出现。同样,container.*
监视在版本1.16中停止
我是唯一有这个问题的人吗?有人找到解决办法了吗
谢谢你的帮助:)
瓦伦丁我发现了问题所在。 对于docker或kubernetes,节点导出器不发送pods度量(
container.*
)。
必须安装Cadvisor(在Google Marketplace中,Cadvisor安装在节点导出器映像中)
由于Kubernetes 1.16,Cadvisor的配置是错误的。您应该编辑配置以解决此问题
所有信息都在这篇文章中:你检查过普罗米修斯/grafana容器中的日志吗?在node_exporter中,我有这样的信息:
2020-09-08T09:35:35:26.426156249Z time=“2020-09-08T09:35:26Z”level=error msg=“错误:diskstats收集器在0.100237s之后失败:sdl的/host/proc/diskstats的无效行”source=“收集器.go:123”
在普罗米修斯我有这样一个:level=warn ts=2020-09-08T09:32:12.538Z caller=klog.go:86 component=k8s_client_runtime func=Warningf msg=“/app/discovery/kubernetes/kubernetes.go:263:watch of*v1.Endpoints结束于:太旧的资源版本:183350035(183351611)”
请分享您正在使用的GKE cluster的确切版本,以及您正在使用的GCP markeplace的确切应用程序是什么?GKE cluster:1.16.13-GKE.400 markeplace中的应用程序:Prometheus&Grafana(v2.2)(node_exporter:v0.15.2;Prometheus:2.11.0)谢谢