Amazon web services 为什么Kubernetes工作节点变为节点状态?
由于未知原因,主节点意外地从群集中删除了工作节点 群集具有以下设置:Amazon web services 为什么Kubernetes工作节点变为节点状态?,amazon-web-services,kubernetes,coreos,Amazon Web Services,Kubernetes,Coreos,由于未知原因,主节点意外地从群集中删除了工作节点 群集具有以下设置: 自动气象站 多az配置 群集主机、群集(跨AZ) 法兰绒网络 使用CoreOS的 发生了一个来源未知的事件,其中在几秒钟的时间内,所有工作节点都从主节点中删除。我们能找到的唯一相关日志条目是kube controller manager的: I0217 14:19:11.432691 1 event.go:217] Event(api.ObjectReference{Kind:"Node", Namespace:"", N
- 自动气象站
- 多az配置
- 群集主机、群集(跨AZ)
- 法兰绒网络
- 使用CoreOS的
I0217 14:19:11.432691 1 event.go:217] Event(api.ObjectReference{Kind:"Node", Namespace:"", Name:"ip-XX-XX-XX-XX.ec2.internal", UID:"XXX", APIVersion:"", ResourceVersion:"", FieldPath:""}): type: 'Normal' reason: 'NodeNotReady' Node ip-XX-XX-XX-XX.ec2.internal status is now: NodeNotReady
大约10分钟后,节点返回到“就绪”
我们还没有找到节点转换为nodenotrady
的原因
到目前为止,我们查看了各种系统组件的日志,包括:
- 法兰绒
- 库贝莱
- etcd
- 控制器管理器
Error updating node status, will retry: error getting node "ip-XX-XX-XX-XX.ec2.internal": Get https://master/api/v1/nodes?fieldSelector=metadata.name%3Dip-XX-XX-XX-XX.ec2.internal&resourceVersion=0: read tcp 10.X.X.X:52534->10.Y.Y.Y:443: read: no route to host".
再次请注意,这些日志消息是在节点重新加入集群后记录的(在集群崩溃和节点重新加入之间有一个清晰的10分钟窗口).报告是否准备就绪的节点:检查节点kubelet日志,查看他们说了什么我们检查了kubelet日志-再次扫描。没有节点将状态更改为“未准备就绪或其他”的明确日志记录事件。也没有任何致命事件的明确迹象。@NorbertvanNobelen我已在问题中添加了有关kubelet日志的信息。如果节点报告自己“未准备就绪”,我希望会出现类似于“节点未准备就绪”的kubelet日志,但找不到该日志。