Kubernetes 计算引擎不正常实例减少50%的时间

Kubernetes 计算引擎不正常实例减少50%的时间,kubernetes,google-cloud-platform,google-compute-engine,google-kubernetes-engine,Kubernetes,Google Cloud Platform,Google Compute Engine,Google Kubernetes Engine,我大约3天前开始使用谷歌云,所以我对它完全陌生。 我在Google Kubernetes引擎上部署了4个吊舱: 前端:react应用程序 Redis 后端:由2个容器、一个nodejs服务器和一个cloudsql代理组成 Nginx入口控制器 **还有一个sql实例正在为我的postgresql数据库运行,因此是cloudsql代理容器 此设置在50%的时间内运行良好,但有时所有吊舱都会崩溃或/或重新创建容器 我试图检查所有相关的日志,但我真的不知道哪些是真正相关的。但我发现有一件事与我的问

我大约3天前开始使用谷歌云,所以我对它完全陌生。 我在Google Kubernetes引擎上部署了4个吊舱:

  • 前端:react应用程序
  • Redis
  • 后端:由2个容器、一个nodejs服务器和一个cloudsql代理组成
  • Nginx入口控制器
**还有一个sql实例正在为我的postgresql数据库运行,因此是cloudsql代理容器

此设置在50%的时间内运行良好,但有时所有吊舱都会崩溃或/或重新创建容器

我试图检查所有相关的日志,但我真的不知道哪些是真正相关的。但我发现有一件事与我的问题相关,我有两个VM实例正在运行,其中一个可能是错误的:

当我将鼠标悬停在加载旋转上时,表示实例正在验证,并且它似乎80%的时间都处于这种状态,当它不处于这种状态时,实例名称旁边会出现一条黄色警告,表示资源未就绪

下面是实例的cpu使用情况(所有硬件的趋势都是一样的),我检查了前端和后端容器的日志,下面是 与cpu丢弃相对应的最后日志:


2019-03-13 01:45:23.533 CET-你能确认应用部署后集群状态不正常吗?您是否设置了吊舱的限制/配额?您是否可以检查系统日志、kubelet日志,并运行
kubectl descripe node
以获取更多信息。您为这些节点提供了多少CPU/内存,您是否尝试增加配置以查看问题是否仍然存在。尝试检查StackDriver以查看可能导致终止的原因您是否可以查看StackDriver以查看来自这些GCE VM的日志,如上所述
kubectl Descripte node
可能会告诉您发生了什么。您是否在GKE上启用了节点自动修复?如果不是,请考虑启用两种可能性:(a)这些可抢占的实例吗?(b) 这些是共享的核心实例吗?特别是f1 micro只能勉强运行基本的Kubernetes设置,如果您在这样的集群上启用stackdriver,您会经常看到CPU图,如实例被限制时所示(导致节点变得不健康)。您能确认应用部署后集群状态不健康吗?您是否设置了吊舱的限制/配额?您是否可以检查系统日志、kubelet日志,并运行
kubectl descripe node
以获取更多信息。您为这些节点提供了多少CPU/内存,您是否尝试增加配置以查看问题是否仍然存在。尝试检查StackDriver以查看可能导致终止的原因您是否可以查看StackDriver以查看来自这些GCE VM的日志,如上所述
kubectl Descripte node
可能会告诉您发生了什么。您是否在GKE上启用了节点自动修复?如果不是,请考虑启用两种可能性:(a)这些可抢占的实例吗?(b) 这些是共享的核心实例吗?特别是f1 micro,它只能勉强运行基本的Kubernetes设置,如果在这样的集群上启用stackdriver,您会经常看到CPU图,如实例被限制时所示(导致节点变得不健康)