GKE:Kubernetes Master/kubectl在节点缩放期间无响应_Kubernetes_Google Kubernetes Engine

GKE:Kubernetes Master/kubectl在节点缩放期间无响应

kubernetes

GKE:Kubernetes Master/kubectl在节点缩放期间无响应,kubernetes,google-kubernetes-engine,Kubernetes,Google Kubernetes Engine,给定的是一个集群，而不是部署到一个固定大小节点池（默认）的静态工作负载。另一个节点池容纳弹性工作负载，池大小从0到10个实例变化在缩放过程中大多数时候群集没有响应：我无法访问GKE类工作负载上的一些集群页面（很抱歉使用德语界面） kubectl无法连接，现有连接（如port forward）也会断开连接，但获取pods-w会断开： E0828 12:36:14.495621 10818端口转发。转到：233]与pod的连接中断与服务器35.205.157.182的连接被拒绝-是否指定了正确

给定的是一个集群，而不是部署到一个固定大小节点池（默认）的静态工作负载。另一个节点池容纳弹性工作负载，池大小从0到10个实例变化在缩放过程中大多数时候群集没有响应：

我无法访问GKE类工作负载上的一些集群页面（很抱歉使用德语界面）

kubectl无法连接，现有连接（如port forward）也会断开连接，但

获取pods-w

会断开：

E0828 12:36:14.495621 10818端口转发。转到：233]与pod的连接中断

与服务器35.205.157.182的连接被拒绝-是否指定了正确的主机或端口？

此外，我认为依赖prom operator之类的工具会遇到问题，因为一些非常默认的参数，如

kube\u pod\u container\u info

在这段时间内丢失了数据

到目前为止，我尝试的是从一个区域集群切换到一个区域集群（没有单节点主节点？），但这没有帮助。此外，该问题并不是在节点池的每个规模上都会发生，而是在大多数情况下

所以我的问题是-如何调试/修复它？
这是一种预期的行为
创建集群时，将根据
nodepool
大小选择用于主机的机器，然后当
autoscaler
创建更多
节点时，主机的机器类型将更改为能够处理新数量的节点主机更新为新机器类型期间，您将失去与API的连接并收到报告的消息，而且由于与API的通信中断，您无法在云控制台中显示与集群相关的任何信息，如所附图像所示您可以尝试避免在创建时更改最小节点数，例如，您提到使用的限制为0和10，因此在创建集群时，您可以使用中点5，它可能支持最大数量的节点，以防工作负载需要它们。这完全有意义。是否在某个地方记录了这一点（出于某些原因）。我在文档中找不到这样的描述：我将通过另一个链接扩展您的答案，不确定这些数字是否适用于GKE 1:1，但它们给人留下了很好的印象：