Apache spark 使用pyspark将RDD保存到S3的方法_Apache Spark_Amazon S3_Pyspark

Apache spark 使用pyspark将RDD保存到S3的方法

apache-spark amazon-s3 pyspark

Apache spark 使用pyspark将RDD保存到S3的方法,apache-spark,amazon-s3,pyspark,Apache Spark,Amazon S3,Pyspark,我试图使用pyspark将RDD保存到AWS S3，但出现“目录已存在”错误当“content1”文件夹不存在时，下面的语句可以正常工作。但是，如果我想将其他文件保存到同一个文件夹中，会出现上述错误吗 rddFilteredData.repartition(5).saveAsTextFile("s3a://partners/research/content1", compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec")

我试图使用pyspark将RDD保存到AWS S3，但出现“目录已存在”错误

当“content1”文件夹不存在时，下面的语句可以正常工作。但是，如果我想将其他文件保存到同一个文件夹中，会出现上述错误吗

rddFilteredData.repartition(5).saveAsTextFile("s3a://partners/research/content1", compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec")

另外，当上面的命令工作时，它会创建这些part-00000x.gz，这很好，但是

我如何给他们取专有名称，比如research-results-0000x.gz

这是否意味着我要将其他文件保存到“content1”文件夹，我需要删除/移动现有文件，因为这会导致名称冲突

因此，将RDD保存到现有bucket/文件夹以处理上述场景的正确方法是什么？提前感谢。

您可以查看一下您还可以将

rdd

转换为

dataframe

，然后使用

mode=“overwrite”

@jjayadeep。谢谢我更喜欢使用python。@python现在更喜欢使用rdd。没有特别的原因，只是在冒险使用dataframe之前先熟悉一下。@NetRocks-这在python中是不可能的。您需要修改用Java编写的底层API。原因是Spark使用Hadoop文件格式。