Amazon ec2 kubernetes的高磁盘使用率(IOPS和带宽)

Amazon ec2 kubernetes的高磁盘使用率(IOPS和带宽),amazon-ec2,kubernetes,kubeadm,amazon-efs,Amazon Ec2,Kubernetes,Kubeadm,Amazon Efs,我正在amazon-ec2上运行一个kubernetes集群,有1个主服务器和2个从服务器,每个服务器都有8GB的RAM和2个VCPU。 下面是我观察到的异常高的磁盘使用率,这是在两个从机上运行一些批处理作业大约40分钟后发生的。在每个从机上,一次运行三个上述作业的实例(种类:作业)。从机上的ram使用率为标称值,约为3GB,cpu使用率低于50% 工作描述: 它从服务器下载一些映像,进行一些映像处理,并将结果存储在NFS上(由两个从属服务器共享)(我在从属服务器上装载了NFS卷,然后在k8s作

我正在amazon-ec2上运行一个kubernetes集群,有1个主服务器和2个从服务器,每个服务器都有8GB的RAM和2个VCPU。 下面是我观察到的异常高的磁盘使用率,这是在两个从机上运行一些批处理作业大约40分钟后发生的。在每个从机上,一次运行三个上述作业的实例
(种类:作业)
。从机上的ram使用率为标称值,约为3GB,cpu使用率低于50%

工作描述: 它从服务器下载一些映像,进行一些映像处理,并将结果存储在NFS上(由两个从属服务器共享)(我在从属服务器上装载了NFS卷,然后在k8s作业描述中将该路径用作装载路径卷。我没有使用kubernetes提供的NFS选项)。此作业根本不对本地卷执行任何读/写操作

正常运行大约40分钟后,我注意到所有从机上的磁盘使用率(iops和带宽都以及8个GB中几乎7.8GB的高RAM消耗,最终迫使节点进入
未就绪
状态。主kubernetes节点未配置为运行用户作业,并且主节点完全不受影响

我该如何解决这个问题?
请告诉我是否需要任何其他信息。

检查kubelet日志中是否有有趣的内容:journalctl-u kubeletit非常怀疑您有五个
kubelet
进程正在运行,并且运行的
flanneld
进程数量大致相同。那是非常非常非常不寻常的,;你的机器上可能有一个叉子炸弹吗?@MatthewLDaniel。我确实重新设置了kubeadm并重新加入,但即使现在htop也显示了kubelet和flanneld的12个实例,但Top只显示了这两个的一个实例。因此,我认为htop显示了多个实例,因为它是线程。所以,我们可以排除forkbomb@MatthewLDaniel我在加入后立即检查了htop,这意味着它尚未运行任何用户作业。您可以使用F4键筛选htop中的进程,并使用F5查看进程树。我想通过这种方式,您会看到所有kubelet或flanneld进程对于每种类型都有一个父进程。在问题出现期间,你能分享一些来自弗兰内尔德和库贝莱的日志吗?他们可能会揭示问题的根本原因。