Azure 节点随机离开kubernetes群集
我使用该工具在azure环境中创建了kubernetes集群(v1.2.1)。我有3个etcd节点,5个kube节点(仆从)和1个kube主节点 在当前的配置中,我面临的问题是仆从在几个小时后随机离开集群。经过一些调试后,docker守护进程本身并没有在该节点上启动 ssh'g连接到坏节点时看到的错误消息:Azure 节点随机离开kubernetes群集,azure,kubernetes,Azure,Kubernetes,我使用该工具在azure环境中创建了kubernetes集群(v1.2.1)。我有3个etcd节点,5个kube节点(仆从)和1个kube主节点 在当前的配置中,我面临的问题是仆从在几个小时后随机离开集群。经过一些调试后,docker守护进程本身并没有在该节点上启动 ssh'g连接到坏节点时看到的错误消息: CoreOS stable (899.15.0) Update Strategy: No Reboots Failed Units: 5 docker.service install
CoreOS stable (899.15.0)
Update Strategy: No Reboots
Failed Units: 5
docker.service
install-kubernetes.service
install-weave.service
locksmithd.service
docker.socket
$kubectl get nodes
显示节点状态为NotReady,$kubectl get events
显示该节点上调度的pod的weave API错误500
在一段时间内,重新启动节点可以工作,但通常情况下不能。有人能帮我调试这个问题或提出一些解决方案或建议吗
$kubectl描述节点kube-03
Name: kube-03
Labels: kubernetes.io/hostname=kube-03
CreationTimestamp: Wed, 13 Apr 2016 02:23:02 +0530
Phase:
Conditions:
Type Status LastHeartbeatTime LastTransitionTime Reason Message
──── ────── ───────────────── ────────────────── ────── ───────
OutOfDisk False Wed, 13 Apr 2016 21:37:04 +0530 Wed, 13 Apr 2016 18:29:01 +0530 KubeletHasSufficientDisk kubelet has sufficient disk space available
Ready False Wed, 13 Apr 2016 21:37:04 +0530 Wed, 13 Apr 2016 18:29:01 +0530 KubeletNotReady container runtime is down
Addresses: 172.18.0.20,172.18.0.20
Capacity:
cpu: 4
memory: 28815788Ki
pods: 110
System Info:
Machine ID: 8ab8c56a9b72435981be3ca65285a00e
System UUID: DBAD108F-9CEC-5548-BB66-22618928D4DA
Boot ID: cf27687a-0149-4c40-8f42-db7c4268e6b1
Kernel Version: 4.3.6-coreos
OS Image: CoreOS 899.15.0
Container Runtime Version: docker://Unknown
Kubelet Version: v1.2.1
Kube-Proxy Version: v1.2.1
ExternalID: kube-03
Non-terminated Pods: (0 in total)
Namespace Name CPU Requests CPU Limits Memory Requests Memory Limits
───────── ──── ──────────── ────────── ─────────────── ─────────────
Allocated resources:
(Total limits may be over 100%, i.e., overcommitted. More info: http://releases.k8s.io/HEAD/docs/user-guide/compute-resources.md)
CPU Requests CPU Limits Memory Requests Memory Limits
──────────── ────────── ─────────────── ─────────────
0 (0%) 0 (0%) 0 (0%) 0 (0%)
No events.
kubectl descripe node
可能会给出节点未完成的原因。如果不是,最好从kubelet日志开始。SSH进入坏节点,查看/var/log/kubelet.log
(从末尾开始)。问题似乎出在docker身上,而不是kubelet身上。您可能需要检查1)docker是否在节点上运行,以及2)docker日志以查看出现了什么问题。使用kubectl descripe节点更新了上述描述output@Yu-JuHong:我验证了docker没有运行,我也看不到健康节点上docker容器中的日志文件。可能是docker配置@蒂姆斯特·克莱尔:我不知道;t在群集中的任何节点上都没有/var/log/kubelet.log
文件。根据显示的“故障单元”,节点配置未成功。我不熟悉您的设置,但请尝试sudo journalctl-u[unit]
查看这些服务失败的原因。kubectl descripe node
可能会告诉您节点未完成的原因。如果不是,最好从kubelet日志开始。SSH进入坏节点,查看/var/log/kubelet.log
(从末尾开始)。问题似乎出在docker身上,而不是kubelet身上。您可能需要检查1)docker是否在节点上运行,以及2)docker日志以查看出现了什么问题。使用kubectl descripe节点更新了上述描述output@Yu-JuHong:我验证了docker没有运行,我也看不到健康节点上docker容器中的日志文件。可能是docker配置@蒂姆斯特·克莱尔:我不知道;t在群集中的任何节点上都没有/var/log/kubelet.log
文件。根据显示的“故障单元”,节点配置未成功。我不熟悉您的设置,但请尝试sudo journalctl-u[unit]
查看这些服务失败的原因。