Kubernetes 意外删除并重新创建GKE节点

Kubernetes 意外删除并重新创建GKE节点,kubernetes,google-kubernetes-engine,Kubernetes,Google Kubernetes Engine,我在Google Kubernetes引擎上创建了一个集群。节点经常被删除/创建(至少每天一次)。即使创建了新实例来替换它们,并且POD被移动到这些新节点,我还是想理解为什么节点会消失 我检查了用于创建群集和节点池的设置: 已在节点池上禁用“自动节点升级” “可抢占节点”已禁用 “自动节点修复”已启用,但我看起来没有节点修复,因为在删除节点时,我在gcloud container operations list中没有看到任何内容 我可以看到,当前节点都是在21:00(重新)创建的,而集群是在

我在Google Kubernetes引擎上创建了一个集群。节点经常被删除/创建(至少每天一次)。即使创建了新实例来替换它们,并且POD被移动到这些新节点,我还是想理解为什么节点会消失

我检查了用于创建群集和节点池的设置:

  • 已在节点池上禁用“自动节点升级”
  • “可抢占节点”已禁用
  • “自动节点修复”已启用,但我看起来没有节点修复,因为在删除节点时,我在
    gcloud container operations list
    中没有看到任何内容
我可以看到,当前节点都是在21:00(重新)创建的,而集群是在08:35创建的:

➜  ~ gcloud container clusters describe my-cluster --format=json
{
  "createTime": "2019-04-11T08:35:39+00:00",
  ...
  "nodePools": [
    {
      ...
      "management": {
        "autoRepair": true
      },
      "name": "default-pool",
    }
  ],
  "status": "RUNNING",
  ...
}

如何跟踪节点被删除的原因?

我试图通过创建群集、手动停止节点上的kubelet(通过运行
systemctl stop kubelet
)触发修复并观察节点恢复来重现您的问题。在我的例子中,我确实看到了自动节点修复的操作,但我也可以在GCE操作日志中看到VM被删除并重新创建(通过GKE robot帐户)


如果运行
gcloud compute operations list
(或检查操作),您应该看到是什么导致VM被删除并重新创建

2019年10月13日(星期日)发生在我身上。
来自有状态分区的所有数据也都消失了

谢谢!检查操作帮助我跟踪节点在虚拟机上运行的事实。