Python 如何通过pyspark以gzip格式保存spark RDD_Python_Apache Spark_Pyspark

Python 如何通过pyspark以gzip格式保存spark RDD

python apache-spark pyspark

Python 如何通过pyspark以gzip格式保存spark RDD,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,因此，我使用以下代码将spark RDD保存到S3存储桶中。有没有办法压缩（gz格式）并保存，而不是将其保存为文本文件 help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help") saveAsTextFile方法接受一个可选参数，该参数指定压缩编解码器类： help_data.repartition(5).saveAsTextFile( path="s3://help-test/logs/help",

因此，我使用以下代码将spark RDD保存到S3存储桶中。有没有办法压缩（gz格式）并保存，而不是将其保存为文本文件

help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")

saveAsTextFile

方法接受一个可选参数，该参数指定压缩编解码器类：

help_data.repartition(5).saveAsTextFile(
    path="s3://help-test/logs/help",
    compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)

看一看，我可以建议你用一个吗？：）