Kubernetes 计算引擎不正常实例减少50%的时间_Kubernetes_Google Cloud Platform_Google Compute Engine_Google Kubernetes Engine

Kubernetes 计算引擎不正常实例减少50%的时间

kubernetes google-cloud-platform google-compute-engine

Kubernetes 计算引擎不正常实例减少50%的时间,kubernetes,google-cloud-platform,google-compute-engine,google-kubernetes-engine,Kubernetes,Google Cloud Platform,Google Compute Engine,Google Kubernetes Engine,我大约3天前开始使用谷歌云，所以我对它完全陌生。我在Google Kubernetes引擎上部署了4个吊舱：前端：react应用程序 Redis 后端：由2个容器、一个nodejs服务器和一个cloudsql代理组成 Nginx入口控制器 **还有一个sql实例正在为我的postgresql数据库运行，因此是cloudsql代理容器此设置在50%的时间内运行良好，但有时所有吊舱都会崩溃或/或重新创建容器我试图检查所有相关的日志，但我真的不知道哪些是真正相关的。但我发现有一件事与我的问

我大约3天前开始使用谷歌云，所以我对它完全陌生。我在Google Kubernetes引擎上部署了4个吊舱：

前端：react应用程序
Redis
后端：由2个容器、一个nodejs服务器和一个cloudsql代理组成
Nginx入口控制器

**还有一个sql实例正在为我的postgresql数据库运行，因此是cloudsql代理容器

此设置在50%的时间内运行良好，但有时所有吊舱都会崩溃或/或重新创建容器

我试图检查所有相关的日志，但我真的不知道哪些是真正相关的。但我发现有一件事与我的问题相关，我有两个VM实例正在运行，其中一个可能是错误的：

当我将鼠标悬停在加载旋转上时，表示实例正在验证，并且它似乎80%的时间都处于这种状态，当它不处于这种状态时，实例名称旁边会出现一条黄色警告，表示资源未就绪

下面是实例的cpu使用情况（所有硬件的趋势都是一样的），我检查了前端和后端容器的日志，下面是与cpu丢弃相对应的最后日志：

2019-03-13 01:45:23.533 CET-你能确认应用部署后集群状态不正常吗？您是否设置了吊舱的限制/配额？您是否可以检查系统日志、kubelet日志，并运行

kubectl descripe node

以获取更多信息。您为这些节点提供了多少CPU/内存，您是否尝试增加配置以查看问题是否仍然存在。尝试检查StackDriver以查看可能导致终止的原因您是否可以查看StackDriver以查看来自这些GCE VM的日志，如上所述

kubectl Descripte node

可能会告诉您发生了什么。您是否在GKE上启用了节点自动修复？如果不是，请考虑启用两种可能性：（a）这些可抢占的实例吗？（b）这些是共享的核心实例吗？特别是f1 micro只能勉强运行基本的Kubernetes设置，如果您在这样的集群上启用stackdriver，您会经常看到CPU图，如实例被限制时所示（导致节点变得不健康）。您能确认应用部署后集群状态不健康吗？您是否设置了吊舱的限制/配额？您是否可以检查系统日志、kubelet日志，并运行

kubectl descripe node

kubectl Descripte node

可能会告诉您发生了什么。您是否在GKE上启用了节点自动修复？如果不是，请考虑启用两种可能性：（a）这些可抢占的实例吗？（b）这些是共享的核心实例吗？特别是f1 micro，它只能勉强运行基本的Kubernetes设置，如果在这样的集群上启用stackdriver，您会经常看到CPU图，如实例被限制时所示（导致节点变得不健康）