Python 如何通过pyspark以gzip格式保存spark RDD
因此,我使用以下代码将spark RDD保存到S3存储桶中。有没有办法压缩(gz格式)并保存,而不是将其保存为文本文件Python 如何通过pyspark以gzip格式保存spark RDD,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,因此,我使用以下代码将spark RDD保存到S3存储桶中。有没有办法压缩(gz格式)并保存,而不是将其保存为文本文件 help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help") saveAsTextFile方法接受一个可选参数,该参数指定压缩编解码器类: help_data.repartition(5).saveAsTextFile( path="s3://help-test/logs/help",
help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")
saveAsTextFile
方法接受一个可选参数,该参数指定压缩编解码器类:
help_data.repartition(5).saveAsTextFile(
path="s3://help-test/logs/help",
compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)
看一看,我可以建议你用一个吗?:)