Hadoop 无需通过网络即可合并HDFS文件
我可以这样做:Hadoop 无需通过网络即可合并HDFS文件,hadoop,mapreduce,cluster-computing,hdfs,Hadoop,Mapreduce,Cluster Computing,Hdfs,我可以这样做: hadoop fs -text /path/to/result/of/many/reudcers/part* | hadoop fs -put - /path/to/concatenated/file/target.csv 但它会使HDFS文件通过网络传输。有没有办法告诉HDFS在集群上合并几个文件?我遇到了与您类似的问题。 这里有一些问题,但它们都有一些细节。这份名单上没有一个人符合我的要求。希望这能对你有所帮助 HDFS concat(实际上是FileSystem.con
hadoop fs -text /path/to/result/of/many/reudcers/part* | hadoop fs -put - /path/to/concatenated/file/target.csv
但它会使HDFS文件通过网络传输。有没有办法告诉HDFS在集群上合并几个文件?我遇到了与您类似的问题。 这里有一些问题,但它们都有一些细节。这份名单上没有一个人符合我的要求。希望这能对你有所帮助
- HDFS concat(实际上是FileSystem.concat()。不太旧的API。要求原始文件的最后一个块已满
- MapReduce jobs:可能我会采用基于此技术的解决方案,但安装速度很慢
- copyMerge-据我所知,这将再次复制。但我还没有检查细节
- 文件压缩-同样,看起来像MapReduce