Google compute engine 群集没有响应,错误消息异常

Google compute engine 群集没有响应,错误消息异常,google-compute-engine,kubernetes,Google Compute Engine,Kubernetes,在容器引擎的Google云控制台概览中,我的容器引擎集群的名称旁边有一个红色感叹号。工具提示显示“群集有问题。请单击群集名称以了解详细信息。”一旦单击名称,我将无法获得更多信息,这只是通常的摘要。 Stackdriver没有报告任何异常情况。没有记录任何事件,所有POD都标记为正常,但我无法访问我的服务。 试图通过kubectl获取信息或日志无效: kubectl cluster-info Unable to connect to the server: dial tcp xxx.xxx.xxx

在容器引擎的Google云控制台概览中,我的容器引擎集群的名称旁边有一个红色感叹号。工具提示显示“群集有问题。请单击群集名称以了解详细信息。”一旦单击名称,我将无法获得更多信息,这只是通常的摘要。 Stackdriver没有报告任何异常情况。没有记录任何事件,所有POD都标记为正常,但我无法访问我的服务。 试图通过
kubectl
获取信息或日志无效:

kubectl cluster-info
Unable to connect to the server: dial tcp xxx.xxx.xxx.xxx:443: i/o timeout

如何调试此问题?这个神秘的消息到底意味着什么?

您是否能够使用其他
kubectl
命令,例如
kubectl get pods


这听起来像是群集设置不正确或出现了一些网络问题。您是否也可以尝试
kubectl config view
查看集群的配置情况?更具体地说,查找
当前上下文
集群
字段,查看集群是否按预期配置

在我们的案例中,这是一个账单问题。有人错误地禁用了我们项目的计费配置文件。我们重新启用了它并等待了一段时间,20-30分钟后,集群恢复正常,没有出现错误

所有
kubectl
命令都不起作用,这就是我在
kubectl
输出之前的最后一句话所暗示的
gcloud container clusters list
以某种方式将集群列为错误,但没有报告故障。我最终删除并重新创建了群集。你能解决这个问题吗?我们已经有过几次这个问题了。。。整个集群消失了,必须在没有任何通知或试图传达导致其“出现问题”的情况下重建。我认为谷歌真的是劣质的,他们基本上每次都回复说我们做错了什么,或者没有在正确的地方寻找信息。。。。我认为AWS将在不久的将来出现,不能像这样在劣质的基础设施上建立业务(也不能轻率的技术支持)