GKE:Kubernetes Master/kubectl在节点缩放期间无响应

GKE:Kubernetes Master/kubectl在节点缩放期间无响应,kubernetes,google-kubernetes-engine,Kubernetes,Google Kubernetes Engine,给定的是一个集群,而不是部署到一个固定大小节点池(默认)的静态工作负载。另一个节点池容纳弹性工作负载,池大小从0到10个实例变化在缩放过程中大多数时候群集没有响应: 我无法访问GKE类工作负载上的一些集群页面(很抱歉使用德语界面) kubectl无法连接,现有连接(如port forward)也会断开连接,但获取pods-w会断开: E0828 12:36:14.495621 10818端口转发。转到:233]与pod的连接中断 与服务器35.205.157.182的连接被拒绝-是否指定了正确

给定的是一个集群,而不是部署到一个固定大小节点池(默认)的静态工作负载。另一个节点池容纳弹性工作负载,池大小从0到10个实例变化在缩放过程中大多数时候群集没有响应:

  • 我无法访问GKE类工作负载上的一些集群页面(很抱歉使用德语界面)
  • kubectl无法连接,现有连接(如port forward)也会断开连接,但
    获取pods-w
    会断开:
  • E0828 12:36:14.495621 10818端口转发。转到:233]与pod的连接中断
  • 与服务器35.205.157.182的连接被拒绝-是否指定了正确的主机或端口?
  • 此外,我认为依赖prom operator之类的工具会遇到问题,因为一些非常默认的参数,如
    kube\u pod\u container\u info
    在这段时间内丢失了数据
  • 到目前为止,我尝试的是从一个区域集群切换到一个区域集群(没有单节点主节点?),但这没有帮助。此外,该问题并不是在节点池的每个规模上都会发生,而是在大多数情况下


    所以我的问题是-如何调试/修复它?

    这是一种预期的行为

    创建集群时,将根据
    nodepool
    大小选择用于主机的机器,然后当
    autoscaler
    创建更多
    节点时,主机的机器类型将更改为能够处理新数量的节点

    主机更新为新机器类型期间,您将失去与API的连接并收到报告的消息,而且由于与API的通信中断,您无法在云控制台中显示与集群相关的任何信息,如所附图像所示


    您可以尝试避免在创建时更改最小节点数,例如,您提到使用的限制为0和10,因此在创建集群时,您可以使用中点5,它可能支持最大数量的节点,以防工作负载需要它们。

    这完全有意义。是否在某个地方记录了这一点(出于某些原因)。我在文档中找不到这样的描述:我将通过另一个链接扩展您的答案,不确定这些数字是否适用于GKE 1:1,但它们给人留下了很好的印象: