Java 在小于128MB的HDFS中合并压缩的lzo文件
我正在尝试将Kb大小的小hdfs文件合并为128MB大小的文件。 所有这些kb大小的文件都是lzo压缩的 有人能帮忙吗?这是我到目前为止试过的Java 在小于128MB的HDFS中合并压缩的lzo文件,java,apache-spark,hadoop,Java,Apache Spark,Hadoop,我正在尝试将Kb大小的小hdfs文件合并为128MB大小的文件。 所有这些kb大小的文件都是lzo压缩的 有人能帮忙吗?这是我到目前为止试过的 hadoop jar /opt/cloudera/parcels/CDH/jars/hadoop-streaming-2.6.0-cdh5.15.1.jar -Dmapred.reduce.tasks=10 -Dmapred.reduce.output.compression.codec=lzo -Dmapred.output.compre
hadoop jar
/opt/cloudera/parcels/CDH/jars/hadoop-streaming-2.6.0-cdh5.15.1.jar
-Dmapred.reduce.tasks=10 -Dmapred.reduce.output.compression.codec=lzo -Dmapred.output.compress=true mapred.output.compression.type=lzo -input "/user/input"
-output "/user/input_tmp"
-mapper cat -reducer cat
这里的问题是,我的输出是未压缩的零件文件,但我希望它是压缩的.lzo文件,如part-r-00001.lzo…参见这里的示例
-D和属性名称之间需要空格。
阿尔索
你可以用
-D mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec
-Dmapred.reduce.output.compression.codec=lzo
另外,请检查您的xsite.xmls(如核心站点)和mapred-site.xmls是否与LZO正确配置参见此处的示例
-D和属性名称之间需要空格。
阿尔索
你可以用
-D mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec
-Dmapred.reduce.output.compression.codec=lzo
另外,请检查您的xsite.xmls(如核心站点)和mapred-site.xmls是否与LZO正确配置您可以使用HAR(Hadoop归档)您可以使用HAR(Hadoop归档)hi有用吗?如果你是业主,你好,那有用吗?如果你作为所有者和