Apache spark 使用pyspark将RDD保存到S3的方法

Apache spark 使用pyspark将RDD保存到S3的方法,apache-spark,amazon-s3,pyspark,Apache Spark,Amazon S3,Pyspark,我试图使用pyspark将RDD保存到AWS S3,但出现“目录已存在”错误 当“content1”文件夹不存在时,下面的语句可以正常工作。但是,如果我想将其他文件保存到同一个文件夹中,会出现上述错误吗 rddFilteredData.repartition(5).saveAsTextFile("s3a://partners/research/content1", compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec")

我试图使用pyspark将RDD保存到AWS S3,但出现“目录已存在”错误

当“content1”文件夹不存在时,下面的语句可以正常工作。但是,如果我想将其他文件保存到同一个文件夹中,会出现上述错误吗

rddFilteredData.repartition(5).saveAsTextFile("s3a://partners/research/content1", compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec")
另外,当上面的命令工作时,它会创建这些part-00000x.gz,这很好,但是

  • 我如何给他们取专有名称,比如research-results-0000x.gz
  • 这是否意味着我要将其他文件保存到“content1”文件夹,我需要删除/移动现有文件,因为这会导致名称冲突

  • 因此,将RDD保存到现有bucket/文件夹以处理上述场景的正确方法是什么?提前感谢。

    您可以查看一下您还可以将
    rdd
    转换为
    dataframe
    ,然后使用
    mode=“overwrite”
    @jjayadeep。谢谢我更喜欢使用python。@python现在更喜欢使用rdd。没有特别的原因,只是在冒险使用dataframe之前先熟悉一下。@NetRocks-这在python中是不可能的。您需要修改用Java编写的底层API。原因是Spark使用Hadoop文件格式。