Json 如何用Apache Spark Java解压Gzip_Json_Apache Spark_Rdd

Json 如何用Apache Spark Java解压Gzip

json apache-spark

Json 如何用Apache Spark Java解压Gzip,json,apache-spark,rdd,Json,Apache Spark,Rdd,我有一个序列文件。在这个文件中，每个值都是压缩的json文件，带有gzip。我的问题是，如何使用ApacheSpark读取Gzip json文件对于我的代码 JavaSparkContext jsc = new JavaSparkContext("local", "sequencefile"); JavaPairRDD<String, byte[]> file = jsc.sequenceFile("file:\\E:\\part-00004", String.class,

我有一个序列文件。在这个文件中，每个值都是压缩的json文件，带有gzip。我的问题是，如何使用ApacheSpark读取Gzip json文件

对于我的代码

JavaSparkContext jsc = new JavaSparkContext("local", "sequencefile");
    JavaPairRDD<String, byte[]> file = jsc.sequenceFile("file:\\E:\\part-00004", String.class, byte[].class);

    JavaRDD<String> map = file.map(new Function<Tuple2<String, byte[]>, String>() {
        public String call(Tuple2<String, byte[]> stringTuple2) throws Exception {
            byte[] uncompress = uncompress(stringTuple2._2);
            return uncompress.toString();
        }
    });

JavaSparkContext jsc=新的JavaSparkContext（“本地”、“序列文件”）；
javapairdd file=jsc.sequenceFile（“文件：\\E:\\part-00004”，String.class，字节[].class）；
JavaRDD map=file.map（新函数（）{
公共字符串调用（Tuple2 stringTuple2）引发异常{
字节[]解压=解压（stringTuple2._2）；
返回uncompress.toString（）；
}
});

但是这个代码不起作用。

祝您愉快

在创建spark上下文时，请使用构造函数，该构造函数还将spark配置作为第三个参数

设置密钥“org.apache.hadoop.io.compression.codecs”的spark配置值

如下

org.apache.hadoop.io.compress.gzip编码，org.apache.hadoop.io.compress.BZip2Codec