Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/amazon-web-services/13.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon web services 为什么Kubernetes工作节点变为节点状态?_Amazon Web Services_Kubernetes_Coreos - Fatal编程技术网

Amazon web services 为什么Kubernetes工作节点变为节点状态?

Amazon web services 为什么Kubernetes工作节点变为节点状态?,amazon-web-services,kubernetes,coreos,Amazon Web Services,Kubernetes,Coreos,由于未知原因,主节点意外地从群集中删除了工作节点 群集具有以下设置: 自动气象站 多az配置 群集主机、群集(跨AZ) 法兰绒网络 使用CoreOS的 发生了一个来源未知的事件,其中在几秒钟的时间内,所有工作节点都从主节点中删除。我们能找到的唯一相关日志条目是kube controller manager的: I0217 14:19:11.432691 1 event.go:217] Event(api.ObjectReference{Kind:"Node", Namespace:"", N

由于未知原因,主节点意外地从群集中删除了工作节点

群集具有以下设置:

  • 自动气象站
  • 多az配置
  • 群集主机、群集(跨AZ)
  • 法兰绒网络
  • 使用CoreOS的
发生了一个来源未知的事件,其中在几秒钟的时间内,所有工作节点都从主节点中删除。我们能找到的唯一相关日志条目是kube controller manager的:

I0217 14:19:11.432691 1 event.go:217] Event(api.ObjectReference{Kind:"Node", Namespace:"", Name:"ip-XX-XX-XX-XX.ec2.internal", UID:"XXX", APIVersion:"", ResourceVersion:"", FieldPath:""}): type: 'Normal' reason: 'NodeNotReady' Node ip-XX-XX-XX-XX.ec2.internal status is now: NodeNotReady
大约10分钟后,节点返回到“就绪”

我们还没有找到节点转换为
nodenotrady
的原因

到目前为止,我们查看了各种系统组件的日志,包括:

  • 法兰绒
  • 库贝莱
  • etcd
  • 控制器管理器
一个可能值得注意的事项是,集群的活动主机当前位于与节点不同的AZ中。这应该可以,但可能是网络连接问题的根源。尽管如此,我们在日志/监测中未发现AZ间连接问题的迹象

检查kubelet日志时,没有节点将其状态更改为“未就绪或其他”的明确日志记录事件。此外,也没有任何致命事件的明确指示

值得注意的一点是,大修后记录的所有kubelets:

Error updating node status, will retry: error getting node "ip-XX-XX-XX-XX.ec2.internal": Get https://master/api/v1/nodes?fieldSelector=metadata.name%3Dip-XX-XX-XX-XX.ec2.internal&resourceVersion=0: read tcp 10.X.X.X:52534->10.Y.Y.Y:443: read: no route to host".

再次请注意,这些日志消息是在节点重新加入集群后记录的(在集群崩溃和节点重新加入之间有一个清晰的10分钟窗口).

报告是否准备就绪的节点:检查节点kubelet日志,查看他们说了什么我们检查了kubelet日志-再次扫描。没有节点将状态更改为“未准备就绪或其他”的明确日志记录事件。也没有任何致命事件的明确迹象。@NorbertvanNobelen我已在问题中添加了有关kubelet日志的信息。如果节点报告自己“未准备就绪”,我希望会出现类似于“节点未准备就绪”的kubelet日志,但找不到该日志。