Apache spark spark RDD saveAsTextFile gzip

Apache spark spark RDD saveAsTextFile gzip,apache-spark,Apache Spark,是否可以将spark rdd文本文件保存为gzip 我能否以某种方式运行此命令:combPrdGrp3.repartition(10).saveAsTextFile(“组合”)并将其保存为gzip文件?使用 import org.apache.hadoop.io.compress.GzipCodec combPrdGrp3.repartition(10).saveAsTextFile("Combined", classOf[GzipCodec]) 或 我认为您需要传入一个自定义的OutputF

是否可以将spark rdd文本文件保存为gzip

我能否以某种方式运行此命令:
combPrdGrp3.repartition(10).saveAsTextFile(“组合”)
并将其保存为gzip文件?

使用

import org.apache.hadoop.io.compress.GzipCodec
combPrdGrp3.repartition(10).saveAsTextFile("Combined", classOf[GzipCodec])


我认为您需要传入一个自定义的
OutputFormat
,您已经在其上设置了
setOutputCompressorClass
。可能需要使用
saveAsNewAPIHadoopFile
。据我所知,lzo默认不受支持,对吗?
sc.hadoopConfiguration.setClass(FileOutputFormat.COMPRESS_CODEC, classOf[GzipCodec], classOf[CompressionCodec])