Java 在小于128MB的HDFS中合并压缩的lzo文件_Java_Apache Spark_Hadoop

Java 在小于128MB的HDFS中合并压缩的lzo文件

java apache-spark hadoop

Java 在小于128MB的HDFS中合并压缩的lzo文件,java,apache-spark,hadoop,Java,Apache Spark,Hadoop,我正在尝试将Kb大小的小hdfs文件合并为128MB大小的文件。所有这些kb大小的文件都是lzo压缩的有人能帮忙吗？这是我到目前为止试过的 hadoop jar /opt/cloudera/parcels/CDH/jars/hadoop-streaming-2.6.0-cdh5.15.1.jar -Dmapred.reduce.tasks=10 -Dmapred.reduce.output.compression.codec=lzo -Dmapred.output.compre

我正在尝试将Kb大小的小hdfs文件合并为128MB大小的文件。所有这些kb大小的文件都是lzo压缩的有人能帮忙吗？这是我到目前为止试过的

hadoop jar
   /opt/cloudera/parcels/CDH/jars/hadoop-streaming-2.6.0-cdh5.15.1.jar
   -Dmapred.reduce.tasks=10 -Dmapred.reduce.output.compression.codec=lzo  -Dmapred.output.compress=true mapred.output.compression.type=lzo -input "/user/input"
   -output "/user/input_tmp"
   -mapper cat -reducer cat

这里的问题是，我的输出是未压缩的零件文件，但我希望它是压缩的.lzo文件，如part-r-00001.lzo…

参见这里的示例

-D和属性名称之间需要空格。阿尔索你可以用

-D mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec

-Dmapred.reduce.output.compression.codec=lzo

另外，请检查您的xsite.xmls（如核心站点）和mapred-site.xmls是否与LZO正确配置

参见此处的示例

-D和属性名称之间需要空格。阿尔索你可以用

-D mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec

-Dmapred.reduce.output.compression.codec=lzo

另外，请检查您的xsite.xmls（如核心站点）和mapred-site.xmls是否与LZO正确配置

您可以使用HAR（Hadoop归档）您可以使用HAR（Hadoop归档）hi有用吗？如果你是业主，你好，那有用吗？如果你作为所有者和