Mapreduce 通过map reduce作业写入后文件大小的更改_Mapreduce_Pyspark_Hdfs

Mapreduce 通过map reduce作业写入后文件大小的更改

mapreduce pyspark

Mapreduce 通过map reduce作业写入后文件大小的更改,mapreduce,pyspark,hdfs,Mapreduce,Pyspark,Hdfs,我通过pyspark，使用saveAsHadoopFile在HDFS上编写了一个tar文件当我对写入的文件执行hdfs dfs-du-s-h时，它以文件大小和复制文件大小的1:14比例显示。一段时间后，文件大小增加，比率降至1:3（理想值）问题是，我可以在写入文件后立即复制文件，但无法区分文件，因为这会导致长度错误不匹配。但是，当大小恢复到实际大小后，我可以进行distcp。您应该真正共享一个（至少是代码）。在Spark中写入tar（您确定这一点）绝对不是常见的事情。写入文件后，hdfs

我通过pyspark，使用saveAsHadoopFile在HDFS上编写了一个tar文件

当我对写入的文件执行hdfs dfs-du-s-h时，它以文件大小和复制文件大小的1:14比例显示。一段时间后，文件大小增加，比率降至1:3（理想值）

问题是，我可以在写入文件后立即复制文件，但无法区分文件，因为这会导致长度错误不匹配。

但是，当大小恢复到实际大小后，我可以进行distcp。

您应该真正共享一个（至少是代码）。在Spark中写入

tar

（您确定这一点）绝对不是常见的事情。写入文件后，hdfs dfs-du-s-h返回500gb 7tb，其中实际大小应为1.6TB。一段时间后，大小会自动调整为1.6TB和4.8TB