Hadoop hdfs核心节点磁盘已满,正在调查?

Hadoop hdfs核心节点磁盘已满,正在调查?,hadoop,apache-spark,hdfs,cluster-computing,diskspace,Hadoop,Apache Spark,Hdfs,Cluster Computing,Diskspace,我们在aws的hdfs上有一个spark群集,它有2个核心节点和1个主节点。最近我发现所有作业都失败了,因为两个核心节点上的磁盘都已满。经进一步调查发现: /data/var/lib/hadoop/dfs/current/BP-*/current/finalized/subdir*/*已满。我可以看到数据,但我想弄清楚的是,究竟是哪个作业创建了这些文件,这些文件占用了近600-700GB的空间,因此我们可以防止将来发生这种情况。有人能告诉我在哪里/如何开始调查吗?检查4040上的工作界面……你可

我们在aws的hdfs上有一个spark群集,它有2个核心节点和1个主节点。最近我发现所有作业都失败了,因为两个核心节点上的磁盘都已满。经进一步调查发现:


/data/var/lib/hadoop/dfs/current/BP-*/current/finalized/subdir*/*
已满。我可以看到数据,但我想弄清楚的是,究竟是哪个作业创建了这些文件,这些文件占用了近600-700GB的空间,因此我们可以防止将来发生这种情况。有人能告诉我在哪里/如何开始调查吗?

检查4040上的工作界面……你可能会发现一些东西。
否则,请告诉更多关于工作、数据和环境的详细信息

同样的问题,这是使用shell命令而不是HDFS发现的,HDFS不显示此路径。这些文件是什么?据我所知,在dfs-ls…中你看不到它们。同样的问题也发生在,你找到什么了吗?