Hadoop hdfs核心节点磁盘已满，正在调查？_Hadoop_Apache Spark_Hdfs_Cluster Computing_Diskspace

Hadoop hdfs核心节点磁盘已满，正在调查？

hadoop apache-spark cluster-computing

Hadoop hdfs核心节点磁盘已满，正在调查？,hadoop,apache-spark,hdfs,cluster-computing,diskspace,Hadoop,Apache Spark,Hdfs,Cluster Computing,Diskspace,我们在aws的hdfs上有一个spark群集，它有2个核心节点和1个主节点。最近我发现所有作业都失败了，因为两个核心节点上的磁盘都已满。经进一步调查发现： /data/var/lib/hadoop/dfs/current/BP-*/current/finalized/subdir*/*已满。我可以看到数据，但我想弄清楚的是，究竟是哪个作业创建了这些文件，这些文件占用了近600-700GB的空间，因此我们可以防止将来发生这种情况。有人能告诉我在哪里/如何开始调查吗？检查4040上的工作界面……你可

我们在aws的hdfs上有一个spark群集，它有2个核心节点和1个主节点。最近我发现所有作业都失败了，因为两个核心节点上的磁盘都已满。经进一步调查发现：

/data/var/lib/hadoop/dfs/current/BP-*/current/finalized/subdir*/*

已满。我可以看到数据，但我想弄清楚的是，究竟是哪个作业创建了这些文件，这些文件占用了近600-700GB的空间，因此我们可以防止将来发生这种情况。有人能告诉我在哪里/如何开始调查吗？

检查4040上的工作界面……你可能会发现一些东西。

否则，请告诉更多关于工作、数据和环境的详细信息

同样的问题，这是使用shell命令而不是HDFS发现的，HDFS不显示此路径。这些文件是什么？据我所知，在dfs-ls…中你看不到它们。同样的问题也发生在，你找到什么了吗？