Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/json/13.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Json 如何用Apache Spark Java解压Gzip_Json_Apache Spark_Rdd - Fatal编程技术网

Json 如何用Apache Spark Java解压Gzip

Json 如何用Apache Spark Java解压Gzip,json,apache-spark,rdd,Json,Apache Spark,Rdd,我有一个序列文件。在这个文件中,每个值都是压缩的json文件,带有gzip。我的问题是,如何使用ApacheSpark读取Gzip json文件 对于我的代码 JavaSparkContext jsc = new JavaSparkContext("local", "sequencefile"); JavaPairRDD<String, byte[]> file = jsc.sequenceFile("file:\\E:\\part-00004", String.class,

我有一个序列文件。在这个文件中,每个值都是压缩的json文件,带有gzip。我的问题是,如何使用ApacheSpark读取Gzip json文件

对于我的代码

JavaSparkContext jsc = new JavaSparkContext("local", "sequencefile");
    JavaPairRDD<String, byte[]> file = jsc.sequenceFile("file:\\E:\\part-00004", String.class, byte[].class);

    JavaRDD<String> map = file.map(new Function<Tuple2<String, byte[]>, String>() {
        public String call(Tuple2<String, byte[]> stringTuple2) throws Exception {
            byte[] uncompress = uncompress(stringTuple2._2);
            return uncompress.toString();
        }
    });
JavaSparkContext jsc=新的JavaSparkContext(“本地”、“序列文件”);
javapairdd file=jsc.sequenceFile(“文件:\\E:\\part-00004”,String.class,字节[].class);
JavaRDD map=file.map(新函数(){
公共字符串调用(Tuple2 stringTuple2)引发异常{
字节[]解压=解压(stringTuple2._2);
返回uncompress.toString();
}
});
但是这个代码不起作用。
祝您愉快

在创建spark上下文时,请使用构造函数,该构造函数还将spark配置作为第三个参数

设置密钥“org.apache.hadoop.io.compression.codecs”的spark配置值

如下

org.apache.hadoop.io.compress.gzip编码,org.apache.hadoop.io.compress.BZip2Codec