调试Kubernetes节点终止
昨晚我的Kubernetes集群对我的2个节点进行了加密,我无法了解发生了什么 kubectl Descripte nodes对发生故障的节点提供了以下信息调试Kubernetes节点终止,kubernetes,Kubernetes,昨晚我的Kubernetes集群对我的2个节点进行了加密,我无法了解发生了什么 kubectl Descripte nodes对发生故障的节点提供了以下信息 Conditions: Type Status LastHeartbeatTime LastTransitionTime Reason Message ---- ----
Conditions:
Type Status LastHeartbeatTime LastTransitionTime Reason Message
---- ------ ----------------- ------------------ ------ -------
NetworkUnavailable False Tue, 04 Sep 2018 21:57:00 +0000 Tue, 04 Sep 2018 21:57:00 +0000 RouteCreated RouteController created a route
OutOfDisk False Wed, 05 Sep 2018 12:12:33 +0000 Tue, 04 Sep 2018 21:56:27 +0000 KubeletHasSufficientDisk kubelet has sufficient disk space available
MemoryPressure False Wed, 05 Sep 2018 12:12:33 +0000 Tue, 04 Sep 2018 21:56:27 +0000 KubeletHasSufficientMemory kubelet has sufficient memory available
DiskPressure False Wed, 05 Sep 2018 12:12:33 +0000 Tue, 04 Sep 2018 21:56:27 +0000 KubeletHasNoDiskPressure kubelet has no disk pressure
Ready True Wed, 05 Sep 2018 12:12:33 +0000 Tue, 04 Sep 2018 21:57:01 +0000 KubeletReady kubelet is posting ready status
所以我知道OutOfDisk、MemoryPressure和DiskPressure在昨晚的某个时候都处于错误状态,但是什么导致了这种情况
我还检查了kubectl get events-所有名称空间,但什么也没有得到
最后,kubectl Descripte pods只是给了我这个毫无帮助的信息
State: Running
Started: Tue, 04 Sep 2018 22:03:47 +0000
Last State: Terminated
Reason: Error
Exit Code: 1
Started: Thu, 30 Aug 2018 14:36:48 +0000
Finished: Tue, 04 Sep 2018 21:25:16 +0000
有没有办法对这个进行验尸?我想知道的不仅仅是磁盘空间不足。我命令您阅读以下文档: 我首先想到的是检查节点/吊舱的日志
kubectl logs
尝试使用此grafana仪表板: 在节点级别,您可以找到以下详细信息,这些信息可以帮助您关联事件: 正常运行时间 节点就绪 节点上的CPU、内存和负载。 与PLEG相关的Kubelet误差 按命名空间列出的节点上的pod计数 内存/磁盘/PID压力 前5大内存消耗吊舱 NTP时间偏差 库贝莱驱逐统计数据