Azure 节点随机离开kubernetes群集_Azure_Kubernetes

Azure 节点随机离开kubernetes群集

azure kubernetes

Azure 节点随机离开kubernetes群集,azure,kubernetes,Azure,Kubernetes,我使用该工具在azure环境中创建了kubernetes集群（v1.2.1）。我有3个etcd节点，5个kube节点（仆从）和1个kube主节点在当前的配置中，我面临的问题是仆从在几个小时后随机离开集群。经过一些调试后，docker守护进程本身并没有在该节点上启动 ssh'g连接到坏节点时看到的错误消息： CoreOS stable (899.15.0) Update Strategy: No Reboots Failed Units: 5 docker.service install

我使用该工具在azure环境中创建了kubernetes集群（v1.2.1）。我有3个etcd节点，5个kube节点（仆从）和1个kube主节点

在当前的配置中，我面临的问题是仆从在几个小时后随机离开集群。经过一些调试后，docker守护进程本身并没有在该节点上启动

ssh'g连接到坏节点时看到的错误消息：

CoreOS stable (899.15.0)
Update Strategy: No Reboots
Failed Units: 5
  docker.service
  install-kubernetes.service
  install-weave.service
  locksmithd.service
  docker.socket

$kubectl get nodes

显示节点状态为NotReady，

$kubectl get events

显示该节点上调度的pod的weave API错误500

在一段时间内，重新启动节点可以工作，但通常情况下不能。有人能帮我调试这个问题或提出一些解决方案或建议吗

$kubectl描述节点kube-03

Name:           kube-03
Labels:         kubernetes.io/hostname=kube-03
CreationTimestamp:  Wed, 13 Apr 2016 02:23:02 +0530
Phase:          
Conditions:
  Type      Status  LastHeartbeatTime           LastTransitionTime          Reason      Message
  ────      ──────  ─────────────────           ──────────────────          ──────      ───────
  OutOfDisk     False   Wed, 13 Apr 2016 21:37:04 +0530     Wed, 13 Apr 2016 18:29:01 +0530     KubeletHasSufficientDisk    kubelet has sufficient disk space available
  Ready     False   Wed, 13 Apr 2016 21:37:04 +0530     Wed, 13 Apr 2016 18:29:01 +0530     KubeletNotReady         container runtime is down
Addresses:  172.18.0.20,172.18.0.20
Capacity:
 cpu:       4
 memory:    28815788Ki
 pods:      110
System Info:
 Machine ID:            8ab8c56a9b72435981be3ca65285a00e
 System UUID:           DBAD108F-9CEC-5548-BB66-22618928D4DA
 Boot ID:           cf27687a-0149-4c40-8f42-db7c4268e6b1
 Kernel Version:        4.3.6-coreos
 OS Image:          CoreOS 899.15.0
 Container Runtime Version: docker://Unknown
 Kubelet Version:       v1.2.1
 Kube-Proxy Version:        v1.2.1
ExternalID:         kube-03
Non-terminated Pods:        (0 in total)
  Namespace         Name        CPU Requests    CPU Limits  Memory Requests Memory Limits
  ─────────         ────        ────────────    ──────────  ─────────────── ─────────────
Allocated resources:
  (Total limits may be over 100%, i.e., overcommitted. More info: http://releases.k8s.io/HEAD/docs/user-guide/compute-resources.md)
  CPU Requests  CPU Limits  Memory Requests Memory Limits
  ────────────  ──────────  ─────────────── ─────────────
  0 (0%)    0 (0%)      0 (0%)      0 (0%)
No events.

kubectl descripe node

可能会给出节点未完成的原因。如果不是，最好从kubelet日志开始。SSH进入坏节点，查看

/var/log/kubelet.log

（从末尾开始）。问题似乎出在docker身上，而不是kubelet身上。您可能需要检查1）docker是否在节点上运行，以及2）docker日志以查看出现了什么问题。使用

kubectl descripe节点更新了上述描述output@Yu-JuHong：我验证了docker没有运行，我也看不到健康节点上docker容器中的日志文件。可能是docker配置@蒂姆斯特·克莱尔：我不知道；t在群集中的任何节点上都没有/var/log/kubelet.log
文件。根据显示的“故障单元”，节点配置未成功。我不熟悉您的设置，但请尝试sudo journalctl-u[unit]
查看这些服务失败的原因。kubectl descripe node
可能会告诉您节点未完成的原因。如果不是，最好从kubelet日志开始。SSH进入坏节点，查看/var/log/kubelet.log
（从末尾开始）。问题似乎出在docker身上，而不是kubelet身上。您可能需要检查1）docker是否在节点上运行，以及2）docker日志以查看出现了什么问题。使用kubectl descripe节点更新了上述描述output@Yu-JuHong：我验证了docker没有运行，我也看不到健康节点上docker容器中的日志文件。可能是docker配置@蒂姆斯特·克莱尔：我不知道；t在群集中的任何节点上都没有/var/log/kubelet.log
文件。根据显示的“故障单元”，节点配置未成功。我不熟悉您的设置，但请尝试sudo journalctl-u[unit]
查看这些服务失败的原因。