Hadoop HDFS文件比较

Hadoop HDFS文件比较,hadoop,hive,hdfs,Hadoop,Hive,Hdfs,由于没有diff,如何比较两个HDFS文件 我考虑使用配置单元表,从HDFS加载数据,然后在两个表上使用join语句。有更好的方法吗?嗯,最简单的答案可能是: diff <(hadoop fs -cat file1) <(hadoop fs -cat file2) diffhadoop没有提供diff命令,但是您可以通过diff命令在shell中使用重定向: diff <(hadoop fs -cat /path/to/file) <(hadoop fs -cat /p

由于没有
diff
,如何比较两个HDFS文件


我考虑使用配置单元表,从HDFS加载数据,然后在两个表上使用join语句。有更好的方法吗?

嗯,最简单的答案可能是:

diff <(hadoop fs -cat file1) <(hadoop fs -cat file2)

diffhadoop没有提供
diff
命令,但是您可以通过
diff
命令在shell中使用重定向:

diff <(hadoop fs -cat /path/to/file) <(hadoop fs -cat /path/to/file2)

您使用的是什么版本的hadoop?您使用的是CDH发行版吗?我想比较两个hdfs目录,一个有压缩数据(4个文件),另一个有50个未压缩文件,如何比较目录…如果块大小不同,即使对于同一个文件,校验和也可能不同。
FileSystem fs = FileSystem.get(conf);
chksum1 = fs.getFileChecksum(new Path("/path/to/file"));
chksum2 = fs.getFileChecksum(new Path("/path/to/file2"));
return chksum1 == chksum2;