Mapreduce 通过map reduce作业写入后文件大小的更改

Mapreduce 通过map reduce作业写入后文件大小的更改,mapreduce,pyspark,hdfs,Mapreduce,Pyspark,Hdfs,我通过pyspark,使用saveAsHadoopFile在HDFS上编写了一个tar文件 当我对写入的文件执行hdfs dfs-du-s-h时,它以文件大小和复制文件大小的1:14比例显示。 一段时间后,文件大小增加,比率降至1:3(理想值) 问题是,我可以在写入文件后立即复制文件,但无法区分文件,因为这会导致长度错误不匹配。 但是,当大小恢复到实际大小后,我可以进行distcp。您应该真正共享一个(至少是代码)。在Spark中写入tar(您确定这一点)绝对不是常见的事情。写入文件后,hdfs

我通过pyspark,使用saveAsHadoopFile在HDFS上编写了一个tar文件

当我对写入的文件执行hdfs dfs-du-s-h时,它以文件大小和复制文件大小的1:14比例显示。 一段时间后,文件大小增加,比率降至1:3(理想值)

问题是,我可以在写入文件后立即复制文件,但无法区分文件,因为这会导致长度错误不匹配。
但是,当大小恢复到实际大小后,我可以进行distcp。

您应该真正共享一个(至少是代码)。在Spark中写入
tar
(您确定这一点)绝对不是常见的事情。写入文件后,hdfs dfs-du-s-h返回500gb 7tb,其中实际大小应为1.6TB。一段时间后,大小会自动调整为1.6TB和4.8TB