Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/373.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 在小于128MB的HDFS中合并压缩的lzo文件_Java_Apache Spark_Hadoop - Fatal编程技术网

Java 在小于128MB的HDFS中合并压缩的lzo文件

Java 在小于128MB的HDFS中合并压缩的lzo文件,java,apache-spark,hadoop,Java,Apache Spark,Hadoop,我正在尝试将Kb大小的小hdfs文件合并为128MB大小的文件。 所有这些kb大小的文件都是lzo压缩的 有人能帮忙吗?这是我到目前为止试过的 hadoop jar /opt/cloudera/parcels/CDH/jars/hadoop-streaming-2.6.0-cdh5.15.1.jar -Dmapred.reduce.tasks=10 -Dmapred.reduce.output.compression.codec=lzo -Dmapred.output.compre

我正在尝试将Kb大小的小hdfs文件合并为128MB大小的文件。 所有这些kb大小的文件都是lzo压缩的 有人能帮忙吗?这是我到目前为止试过的

hadoop jar
   /opt/cloudera/parcels/CDH/jars/hadoop-streaming-2.6.0-cdh5.15.1.jar
   -Dmapred.reduce.tasks=10 -Dmapred.reduce.output.compression.codec=lzo  -Dmapred.output.compress=true mapred.output.compression.type=lzo -input "/user/input"
   -output "/user/input_tmp"
   -mapper cat -reducer cat
这里的问题是,我的输出是未压缩的零件文件,但我希望它是压缩的.lzo文件,如part-r-00001.lzo…

参见这里的示例

-D和属性名称之间需要空格。 阿尔索 你可以用

-D mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec

-Dmapred.reduce.output.compression.codec=lzo
另外,请检查您的xsite.xmls(如核心站点)和mapred-site.xmls是否与LZO正确配置

参见此处的示例

-D和属性名称之间需要空格。 阿尔索 你可以用

-D mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec

-Dmapred.reduce.output.compression.codec=lzo

另外,请检查您的xsite.xmls(如核心站点)和mapred-site.xmls是否与LZO正确配置

您可以使用HAR(Hadoop归档)您可以使用HAR(Hadoop归档)hi有用吗?如果你是业主,你好,那有用吗?如果你作为所有者和