Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/selenium/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何通过pyspark以gzip格式保存spark RDD_Python_Apache Spark_Pyspark - Fatal编程技术网

Python 如何通过pyspark以gzip格式保存spark RDD

Python 如何通过pyspark以gzip格式保存spark RDD,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,因此,我使用以下代码将spark RDD保存到S3存储桶中。有没有办法压缩(gz格式)并保存,而不是将其保存为文本文件 help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help") saveAsTextFile方法接受一个可选参数,该参数指定压缩编解码器类: help_data.repartition(5).saveAsTextFile( path="s3://help-test/logs/help",

因此,我使用以下代码将spark RDD保存到S3存储桶中。有没有办法压缩(gz格式)并保存,而不是将其保存为文本文件

help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")

saveAsTextFile
方法接受一个可选参数,该参数指定压缩编解码器类:

help_data.repartition(5).saveAsTextFile(
    path="s3://help-test/logs/help",
    compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)
看一看,我可以建议你用一个吗?:)