hadoop RC文件格式:在hdfs中合并小文件

hadoop RC文件格式:在hdfs中合并小文件,hadoop,hive,file-format,Hadoop,Hive,File Format,我正在寻找一种方法来组合由MapReduce程序生成的小RC文件。 将小型RC文件合并为大型RC文件的最佳方法是什么。您可以尝试使用getmerge命令。这将源目录和目标文件作为输入,并将源目录中的文件连接到目标文件中 例如,如果配置单元表名为search\u combined\u rc,则可以将组合的rc文件放入单个文件中 hadoop fs-getmerge/user/hive/warehouse/dev.db/search\u combined\u rc//localdata/destin

我正在寻找一种方法来组合由MapReduce程序生成的小RC文件。
将小型RC文件合并为大型RC文件的最佳方法是什么。

您可以尝试使用getmerge命令。这将源目录和目标文件作为输入,并将源目录中的文件连接到目标文件中

例如,如果配置单元表名为search\u combined\u rc,则可以将组合的rc文件放入单个文件中

hadoop fs-getmerge/user/hive/warehouse/dev.db/search\u combined\u rc//localdata/destinationfilename

由于无法使用打开典型序列文件的工具打开RCFile,因此可以尝试使用rcfilecat工具显示RCFile的内容。您需要将文件从本地目录移回HDFS


配置单元--服务rcfilecat/hdfsfilelocation

这是否有效?我认为可能还有另一种方法,通过设置reducer 1的数量,可以将所有文件都放在一个文件中。