Hadoop 猪不&x27;当通过Oozie运行时,是否清理/tmp目录文件?

Hadoop 猪不&x27;当通过Oozie运行时,是否清理/tmp目录文件?,hadoop,apache-pig,hdfs,Hadoop,Apache Pig,Hdfs,我每天都在持续运行Oozie协调员工作。 协调器以1440(即24小时)的频率触发工作流作业。 工作流是一个简单的数据管道,它使用Java操作提取一些外部数据,使用Pig操作处理它们,然后Sqoop将处理后的数据输出到外部数据库 在过去的两个月里,它运转良好。 但是,我最近注意到集群的磁盘空间不足。 因此,我检查了HDFS,出乎意料的是,我发现/tmp目录的大小是/user目录的3倍 当我深入查看/tmp目录时,我发现以前的一些工作流作业临时工作目录仍然位于/tmp目录中。我认为这些目录应该在作

我每天都在持续运行Oozie协调员工作。 协调器以1440(即24小时)的频率触发工作流作业。 工作流是一个简单的数据管道,它使用Java操作提取一些外部数据,使用Pig操作处理它们,然后Sqoop将处理后的数据输出到外部数据库

在过去的两个月里,它运转良好。 但是,我最近注意到集群的磁盘空间不足。 因此,我检查了HDFS,出乎意料的是,我发现/tmp目录的大小是/user目录的3倍

当我深入查看/tmp目录时,我发现以前的一些工作流作业临时工作目录仍然位于/tmp目录中。我认为这些目录应该在作业完成后清理(不管作业的最终状态如何)

我已经手动删除了几个大目录,现在,磁盘空间问题得到了解决。 然而,我想了解为什么不是所有的临时目录都被删除,知道为什么吗

以下是群集详细信息:

  • Hadoop发行版:Cloudera(CDH4.8)
  • 节点总数:6
  • 名称节点:1
  • 辅助名称节点:1
  • 数据节点:4个
  • 每个节点的磁盘空间:500 GB
以下是fs-du的结果:

bash-4.1$ hadoop fs -du -h /
2.5 K    /hbase
217.0 G  /tmp
46.5 G   /user

Inside the /tmp :

bash-4.1$ hadoop fs -du -h /tmp
0        /tmp/.cloudera_health_monitoring_canary_files
4        /tmp/mapred
22.9 M   /tmp/temp-100334970
4.6 M    /tmp/temp-1014433124
1.8 M    /tmp/temp-1050713307
243.7 K  /tmp/temp-1166395306
188.6 M  /tmp/temp-1243526890
11.6 M   /tmp/temp-1246394296
182.2 K  /tmp/temp-1376015266
7.2 M    /tmp/temp-1426134619
18.4 G   /tmp/temp-1490128243
527.2 M  /tmp/temp-1582569445
1.6 G    /tmp/temp-15985618
27.3 M   /tmp/temp-16966016
1.7 M    /tmp/temp-1920170181
3.6 M    /tmp/temp-194155462
190.0 G  /tmp/temp-2050991966
173.6 K  /tmp/temp-31318147
2.5 M    /tmp/temp-327605300

请重新格式化你的问题,它很难理解。编辑问题,如果你需要更多信息,请告诉我。对此有什么想法吗?