验证hadoop中的压缩是否成功

验证hadoop中的压缩是否成功,hadoop,compression,Hadoop,Compression,嗨,我用下面的代码来压缩hdfs中的文件 hadoop jar hadoop-streaming-2.6.0-cdh5.7.1.jar \ -Dmapred.reduce.tasks=0 \ -Dmapred.output.compress=true \ -Dmapred.compress.map.output=true \ -Dmapred.output.compressio

嗨,我用下面的代码来压缩hdfs中的文件

hadoop jar hadoop-streaming-2.6.0-cdh5.7.1.jar \
               -Dmapred.reduce.tasks=0 \
               -Dmapred.output.compress=true \
               -Dmapred.compress.map.output=true \
               -Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \
               -input ${filename} \
               -output location \
               -mapper /bin/cat \
               -inputformat org.apache.hadoop.mapred.TextInputFormat \
               -outputformat org.apache.hadoop.mapred.TextOutputFormat
然后再次使用

hadoop jar hadoop-streaming-2.6.0-cdh5.7.1.jar \
               -Dmapred.reduce.tasks=0 \
               -Dmapred.input.compress=true \                                            
               -Dmapred.input.compression.codec=org.apache.hadoop.io.compress.GzipCodec \
               -input ${filename} \
               -output location \
               -mapper /bin/cat \
               -inputformat org.apache.hadoop.mapred.TextInputFormat \
               -outputformat org.apache.hadoop.mapred.TextOutputFormat
但是,当我检查文件大小时,它会有几个字节的差异

例如,初始文件大小为43704541167字节 一旦我对它进行压缩和解压缩,它的大小是43704541183

我想知道我们是否有办法确认压缩是否成功且没有任何数据丢失


提前谢谢

也许比较一下这两个文件的散列,看看它们是否相同?Hi@BinaryNerd谢谢你的回复。。我试图比较这两个文件的散列,但两者都不同。我猜这是因为数据中有一些特殊的字符。也许比较一下这两个文件的散列,看看它们是否相同?Hi@BinaryNerd谢谢你的回复。。我试图比较这两个文件的散列,但两者都不同。我猜这是因为数据中有一些特殊字符。。