如何在Hadoop中实现diff?

如何在Hadoop中实现diff?,hadoop,diff,bigdata,Hadoop,Diff,Bigdata,我想比较本地FS上的数据和Hadoop上的数据(diff在Hadoop上不起作用) 由于我们正在处理的数据是巨大的,我们不想做“hadoop fs-copyToLocal”和比较。(因为它会很快填满本地存储) 是否有任何方法或工具可以帮助我们比较本地FS和Hadoop FS之间的数据?使用-diff Localfile它是什么类型的文件?它是文本文件还是序列文件?它是压缩文件?是单个文件还是包含子目录的目录?你愿意写一些java代码吗?

我想比较本地FS上的数据和Hadoop上的数据(diff在Hadoop上不起作用) 由于我们正在处理的数据是巨大的,我们不想做“hadoop fs-copyToLocal”和比较。(因为它会很快填满本地存储)


是否有任何方法或工具可以帮助我们比较本地FS和Hadoop FS之间的数据?

使用-diff Localfile它是什么类型的文件?它是文本文件还是序列文件?它是压缩文件?是单个文件还是包含子目录的目录?你愿意写一些java代码吗?