Amazon web services 为什么Kubernetes工作节点变为节点状态？_Amazon Web Services_Kubernetes_Coreos

Amazon web services 为什么Kubernetes工作节点变为节点状态？

amazon-web-services kubernetes

Amazon web services 为什么Kubernetes工作节点变为节点状态？,amazon-web-services,kubernetes,coreos,Amazon Web Services,Kubernetes,Coreos,由于未知原因，主节点意外地从群集中删除了工作节点群集具有以下设置：自动气象站多az配置群集主机、群集（跨AZ）法兰绒网络使用CoreOS的发生了一个来源未知的事件，其中在几秒钟的时间内，所有工作节点都从主节点中删除。我们能找到的唯一相关日志条目是kube controller manager的： I0217 14:19:11.432691 1 event.go:217] Event(api.ObjectReference{Kind:"Node", Namespace:"", N

由于未知原因，主节点意外地从群集中删除了工作节点

群集具有以下设置：

自动气象站
多az配置
群集主机、群集（跨AZ）
法兰绒网络
使用CoreOS的

发生了一个来源未知的事件，其中在几秒钟的时间内，所有工作节点都从主节点中删除。我们能找到的唯一相关日志条目是kube controller manager的：

I0217 14:19:11.432691 1 event.go:217] Event(api.ObjectReference{Kind:"Node", Namespace:"", Name:"ip-XX-XX-XX-XX.ec2.internal", UID:"XXX", APIVersion:"", ResourceVersion:"", FieldPath:""}): type: 'Normal' reason: 'NodeNotReady' Node ip-XX-XX-XX-XX.ec2.internal status is now: NodeNotReady

大约10分钟后，节点返回到“就绪”

我们还没有找到节点转换为

nodenotrady

的原因

到目前为止，我们查看了各种系统组件的日志，包括：

法兰绒
库贝莱
etcd
控制器管理器

一个可能值得注意的事项是，集群的活动主机当前位于与节点不同的AZ中。这应该可以，但可能是网络连接问题的根源。尽管如此，我们在日志/监测中未发现AZ间连接问题的迹象

检查kubelet日志时，没有节点将其状态更改为“未就绪或其他”的明确日志记录事件。此外，也没有任何致命事件的明确指示

值得注意的一点是，大修后记录的所有kubelets：

Error updating node status, will retry: error getting node "ip-XX-XX-XX-XX.ec2.internal": Get https://master/api/v1/nodes?fieldSelector=metadata.name%3Dip-XX-XX-XX-XX.ec2.internal&resourceVersion=0: read tcp 10.X.X.X:52534->10.Y.Y.Y:443: read: no route to host".

再次请注意，这些日志消息是在节点重新加入集群后记录的（在集群崩溃和节点重新加入之间有一个清晰的10分钟窗口）.

报告是否准备就绪的节点：检查节点kubelet日志，查看他们说了什么我们检查了kubelet日志-再次扫描。没有节点将状态更改为“未准备就绪或其他”的明确日志记录事件。也没有任何致命事件的明确迹象。@NorbertvanNobelen我已在问题中添加了有关kubelet日志的信息。如果节点报告自己“未准备就绪”，我希望会出现类似于“节点未准备就绪”的kubelet日志，但找不到该日志。