Kubernetes 群集正在意外地重新启动_Kubernetes_Google Cloud Platform_Google Kubernetes Engine

Kubernetes 群集正在意外地重新启动

kubernetes google-cloud-platform

Kubernetes 群集正在意外地重新启动,kubernetes,google-cloud-platform,google-kubernetes-engine,Kubernetes,Google Cloud Platform,Google Kubernetes Engine,最近，我们在Kubernetes引擎（GCP）上创建了一个集群，我们开始注意到它的一个奇怪行为。每天节点都会在一天中的某个时间自动停止并重新创建，使应用程序在几分钟内不可用事件在Stackdriver仪表板中的显示方式：为了了解问题的根本原因，我分析了Stackdriver中的日志，并参考了今天发生的事件（2017-12-1912:22pm）群集日志：与该事件相关的最近条目出现在下午12点26分（可能是集群返回的时刻）节点日志：实例日志似乎也帮不了什么忙。最接近事件的记录仅在下午

最近，我们在Kubernetes引擎（GCP）上创建了一个集群，我们开始注意到它的一个奇怪行为。每天节点都会在一天中的某个时间自动停止并重新创建，使应用程序在几分钟内不可用

事件在Stackdriver仪表板中的显示方式：

为了了解问题的根本原因，我分析了Stackdriver中的日志，并参考了今天发生的事件（2017-12-1912:22pm）

群集日志：

与该事件相关的最近条目出现在下午12点26分（可能是集群返回的时刻）

节点日志：

实例日志似乎也帮不了什么忙。最接近事件的记录仅在下午12:23出现（也是在实例开始返回之后）

以前有没有人经历过这种情况，或者知道如何更好地调试它，并发现导致这种行为的原因

Stackdriver日志中显然没有显示事件的原因。

所描述的行为与他们的行为非常相似（他们最多活24小时）

如果不确定节点是否可抢占，请检查GCP WebUI（下面的示例，请检查“可抢占节点”行），或通过CLI：

$ gcloud compute instances list | grep gke | awk '{print $4}'

如果CLI命令将返回“true”，则表示节点是可抢占的（请参见下文）：

注意：如果在同一项目下有多个GKE集群，请在

grep

命令后添加GKE集群名称

$ gcloud compute instances list | grep gke | awk '{print $4}'
true
true
true