Kubernetes 计算引擎不正常实例减少50%的时间
我大约3天前开始使用谷歌云,所以我对它完全陌生。 我在Google Kubernetes引擎上部署了4个吊舱:Kubernetes 计算引擎不正常实例减少50%的时间,kubernetes,google-cloud-platform,google-compute-engine,google-kubernetes-engine,Kubernetes,Google Cloud Platform,Google Compute Engine,Google Kubernetes Engine,我大约3天前开始使用谷歌云,所以我对它完全陌生。 我在Google Kubernetes引擎上部署了4个吊舱: 前端:react应用程序 Redis 后端:由2个容器、一个nodejs服务器和一个cloudsql代理组成 Nginx入口控制器 **还有一个sql实例正在为我的postgresql数据库运行,因此是cloudsql代理容器 此设置在50%的时间内运行良好,但有时所有吊舱都会崩溃或/或重新创建容器 我试图检查所有相关的日志,但我真的不知道哪些是真正相关的。但我发现有一件事与我的问
- 前端:react应用程序
- Redis
- 后端:由2个容器、一个nodejs服务器和一个cloudsql代理组成
- Nginx入口控制器
2019-03-13 01:45:23.533 CET-你能确认应用部署后集群状态不正常吗?您是否设置了吊舱的限制/配额?您是否可以检查系统日志、kubelet日志,并运行
kubectl descripe node
以获取更多信息。您为这些节点提供了多少CPU/内存,您是否尝试增加配置以查看问题是否仍然存在。尝试检查StackDriver以查看可能导致终止的原因您是否可以查看StackDriver以查看来自这些GCE VM的日志,如上所述kubectl Descripte node
可能会告诉您发生了什么。您是否在GKE上启用了节点自动修复?如果不是,请考虑启用两种可能性:(a)这些可抢占的实例吗?(b) 这些是共享的核心实例吗?特别是f1 micro只能勉强运行基本的Kubernetes设置,如果您在这样的集群上启用stackdriver,您会经常看到CPU图,如实例被限制时所示(导致节点变得不健康)。您能确认应用部署后集群状态不健康吗?您是否设置了吊舱的限制/配额?您是否可以检查系统日志、kubelet日志,并运行kubectl descripe node
以获取更多信息。您为这些节点提供了多少CPU/内存,您是否尝试增加配置以查看问题是否仍然存在。尝试检查StackDriver以查看可能导致终止的原因您是否可以查看StackDriver以查看来自这些GCE VM的日志,如上所述kubectl Descripte node
可能会告诉您发生了什么。您是否在GKE上启用了节点自动修复?如果不是,请考虑启用两种可能性:(a)这些可抢占的实例吗?(b) 这些是共享的核心实例吗?特别是f1 micro,它只能勉强运行基本的Kubernetes设置,如果在这样的集群上启用stackdriver,您会经常看到CPU图,如实例被限制时所示(导致节点变得不健康)