Apache spark 使用pyspark将RDD保存到S3的方法
我试图使用pyspark将RDD保存到AWS S3,但出现“目录已存在”错误 当“content1”文件夹不存在时,下面的语句可以正常工作。但是,如果我想将其他文件保存到同一个文件夹中,会出现上述错误吗Apache spark 使用pyspark将RDD保存到S3的方法,apache-spark,amazon-s3,pyspark,Apache Spark,Amazon S3,Pyspark,我试图使用pyspark将RDD保存到AWS S3,但出现“目录已存在”错误 当“content1”文件夹不存在时,下面的语句可以正常工作。但是,如果我想将其他文件保存到同一个文件夹中,会出现上述错误吗 rddFilteredData.repartition(5).saveAsTextFile("s3a://partners/research/content1", compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec")
rddFilteredData.repartition(5).saveAsTextFile("s3a://partners/research/content1", compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec")
另外,当上面的命令工作时,它会创建这些part-00000x.gz,这很好,但是
因此,将RDD保存到现有bucket/文件夹以处理上述场景的正确方法是什么?提前感谢。您可以查看一下您还可以将
rdd
转换为dataframe
,然后使用mode=“overwrite”
@jjayadeep。谢谢我更喜欢使用python。@python现在更喜欢使用rdd。没有特别的原因,只是在冒险使用dataframe之前先熟悉一下。@NetRocks-这在python中是不可能的。您需要修改用Java编写的底层API。原因是Spark使用Hadoop文件格式。