Hadoop 如何在cloudera中合并零件文件和标题

Hadoop 如何在cloudera中合并零件文件和标题,hadoop,apache-pig,cloudera,hue,impala,Hadoop,Apache Pig,Cloudera,Hue,Impala,我有一个大表,它是用Pig编辑器生成的,包含大约十万条记录。 Pig分别返回部分文件和.Pig_头文件和.Pig_架构文件。 我需要有所有的部分文件和一个标题作为一个完整的表在.txt格式。 我可以使用getmerge命令执行此操作: -- To delete schema from output folder fs -rm /OUTPUT_folder/.pig_schema --To merge all the part files and header from output fo

我有一个大表,它是用Pig编辑器生成的,包含大约十万条记录。 Pig分别返回部分文件和.Pig_头文件和.Pig_架构文件。 我需要有所有的部分文件和一个标题作为一个完整的表在.txt格式。 我可以使用getmerge命令执行此操作:

-- To delete schema from output folder
    fs -rm /OUTPUT_folder/.pig_schema
--To merge all the part files and header from output folder and to save result in .txt file  
    fs -getmerge /OUTPUT_folder/* /Another_folder/Result.txt
我想问一下,在Cloudera中是否有任何方法可以在不使用getmerge命令的情况下获得这个完整的表

Cloudera中可能有一个软件或命令,允许同时合并零件文件


然后我只需要打开这个表,所有列的标题都是“有序的”,在色调中使用什么更好呢?

你可以试着按所有人进行最后一组,然后按顺序进行一次FOREACH展平(),这样所有的记录都会进入一个简化程序,因此只会在一个文件中。

谢谢!如果有5个文件(part-m-00000、part-m-00001、part-m-00003、part-m-00004、part-m-00005),请举例说明,因为我不太了解如何使用Group by。也许Avro存储是一个解决方案?