Hadoop 猪不&x27;当通过Oozie运行时,是否清理/tmp目录文件?
我每天都在持续运行Oozie协调员工作。 协调器以1440(即24小时)的频率触发工作流作业。 工作流是一个简单的数据管道,它使用Java操作提取一些外部数据,使用Pig操作处理它们,然后Sqoop将处理后的数据输出到外部数据库 在过去的两个月里,它运转良好。 但是,我最近注意到集群的磁盘空间不足。 因此,我检查了HDFS,出乎意料的是,我发现/tmp目录的大小是/user目录的3倍 当我深入查看/tmp目录时,我发现以前的一些工作流作业临时工作目录仍然位于/tmp目录中。我认为这些目录应该在作业完成后清理(不管作业的最终状态如何) 我已经手动删除了几个大目录,现在,磁盘空间问题得到了解决。 然而,我想了解为什么不是所有的临时目录都被删除,知道为什么吗 以下是群集详细信息:Hadoop 猪不&x27;当通过Oozie运行时,是否清理/tmp目录文件?,hadoop,apache-pig,hdfs,Hadoop,Apache Pig,Hdfs,我每天都在持续运行Oozie协调员工作。 协调器以1440(即24小时)的频率触发工作流作业。 工作流是一个简单的数据管道,它使用Java操作提取一些外部数据,使用Pig操作处理它们,然后Sqoop将处理后的数据输出到外部数据库 在过去的两个月里,它运转良好。 但是,我最近注意到集群的磁盘空间不足。 因此,我检查了HDFS,出乎意料的是,我发现/tmp目录的大小是/user目录的3倍 当我深入查看/tmp目录时,我发现以前的一些工作流作业临时工作目录仍然位于/tmp目录中。我认为这些目录应该在作
- Hadoop发行版:Cloudera(CDH4.8)
- 节点总数:6
- 名称节点:1
- 辅助名称节点:1
- 数据节点:4个
- 每个节点的磁盘空间:500 GB
bash-4.1$ hadoop fs -du -h /
2.5 K /hbase
217.0 G /tmp
46.5 G /user
Inside the /tmp :
bash-4.1$ hadoop fs -du -h /tmp
0 /tmp/.cloudera_health_monitoring_canary_files
4 /tmp/mapred
22.9 M /tmp/temp-100334970
4.6 M /tmp/temp-1014433124
1.8 M /tmp/temp-1050713307
243.7 K /tmp/temp-1166395306
188.6 M /tmp/temp-1243526890
11.6 M /tmp/temp-1246394296
182.2 K /tmp/temp-1376015266
7.2 M /tmp/temp-1426134619
18.4 G /tmp/temp-1490128243
527.2 M /tmp/temp-1582569445
1.6 G /tmp/temp-15985618
27.3 M /tmp/temp-16966016
1.7 M /tmp/temp-1920170181
3.6 M /tmp/temp-194155462
190.0 G /tmp/temp-2050991966
173.6 K /tmp/temp-31318147
2.5 M /tmp/temp-327605300
请重新格式化你的问题,它很难理解。编辑问题,如果你需要更多信息,请告诉我。对此有什么想法吗?