Json 如何用Apache Spark Java解压Gzip
我有一个序列文件。在这个文件中,每个值都是压缩的json文件,带有gzip。我的问题是,如何使用ApacheSpark读取Gzip json文件 对于我的代码Json 如何用Apache Spark Java解压Gzip,json,apache-spark,rdd,Json,Apache Spark,Rdd,我有一个序列文件。在这个文件中,每个值都是压缩的json文件,带有gzip。我的问题是,如何使用ApacheSpark读取Gzip json文件 对于我的代码 JavaSparkContext jsc = new JavaSparkContext("local", "sequencefile"); JavaPairRDD<String, byte[]> file = jsc.sequenceFile("file:\\E:\\part-00004", String.class,
JavaSparkContext jsc = new JavaSparkContext("local", "sequencefile");
JavaPairRDD<String, byte[]> file = jsc.sequenceFile("file:\\E:\\part-00004", String.class, byte[].class);
JavaRDD<String> map = file.map(new Function<Tuple2<String, byte[]>, String>() {
public String call(Tuple2<String, byte[]> stringTuple2) throws Exception {
byte[] uncompress = uncompress(stringTuple2._2);
return uncompress.toString();
}
});
JavaSparkContext jsc=新的JavaSparkContext(“本地”、“序列文件”);
javapairdd file=jsc.sequenceFile(“文件:\\E:\\part-00004”,String.class,字节[].class);
JavaRDD map=file.map(新函数(){
公共字符串调用(Tuple2 stringTuple2)引发异常{
字节[]解压=解压(stringTuple2._2);
返回uncompress.toString();
}
});
但是这个代码不起作用。
祝您愉快在创建spark上下文时,请使用构造函数,该构造函数还将spark配置作为第三个参数 设置密钥“org.apache.hadoop.io.compression.codecs”的spark配置值 如下 org.apache.hadoop.io.compress.gzip编码,org.apache.hadoop.io.compress.BZip2Codec