Kubernetes 群集正在意外地重新启动

Kubernetes 群集正在意外地重新启动,kubernetes,google-cloud-platform,google-kubernetes-engine,Kubernetes,Google Cloud Platform,Google Kubernetes Engine,最近,我们在Kubernetes引擎(GCP)上创建了一个集群,我们开始注意到它的一个奇怪行为。每天节点都会在一天中的某个时间自动停止并重新创建,使应用程序在几分钟内不可用 事件在Stackdriver仪表板中的显示方式: 为了了解问题的根本原因,我分析了Stackdriver中的日志,并参考了今天发生的事件(2017-12-1912:22pm) 群集日志: 与该事件相关的最近条目出现在下午12点26分(可能是集群返回的时刻) 节点日志: 实例日志似乎也帮不了什么忙。最接近事件的记录仅在下午

最近,我们在Kubernetes引擎(GCP)上创建了一个集群,我们开始注意到它的一个奇怪行为。每天节点都会在一天中的某个时间自动停止并重新创建,使应用程序在几分钟内不可用

事件在Stackdriver仪表板中的显示方式:

为了了解问题的根本原因,我分析了Stackdriver中的日志,并参考了今天发生的事件(2017-12-1912:22pm

群集日志:

与该事件相关的最近条目出现在下午12点26分(可能是集群返回的时刻)

节点日志:

实例日志似乎也帮不了什么忙。最接近事件的记录仅在下午12:23出现(也是在实例开始返回之后)

以前有没有人经历过这种情况,或者知道如何更好地调试它,并发现导致这种行为的原因


Stackdriver日志中显然没有显示事件的原因。

所描述的行为与他们的行为非常相似(他们最多活24小时)

如果不确定节点是否可抢占,请检查GCP WebUI(下面的示例,请检查“可抢占节点”行),或通过CLI:

$ gcloud compute instances list | grep gke | awk '{print $4}'
如果CLI命令将返回“true”,则表示节点是可抢占的(请参见下文):

注意:如果在同一项目下有多个GKE集群,请在
grep
命令后添加GKE集群名称

$ gcloud compute instances list | grep gke | awk '{print $4}'
true
true
true