将csv文件从pypark dataframe保存到s3存储桶中

将csv文件从pypark dataframe保存到s3存储桶中,dataframe,amazon-s3,pyspark,Dataframe,Amazon S3,Pyspark,我想将spark数据帧的内容保存到s3 bucket中的csv文件中: df_country.repartition(1).write.csv('s3n://bucket/test/csv/a',sep=",",header=True,mode='overwrite') 它创建名为-00000-fc644e84-7579-48的文件的问题 有没有办法修复此文件的名称。例如test.csv 谢谢 最好的这是不可能的,因为作业中的每个分区都将创建自己的文件,并且必须遵循严格的约定以避免命名冲突。建

我想将spark数据帧的内容保存到s3 bucket中的csv文件中:

df_country.repartition(1).write.csv('s3n://bucket/test/csv/a',sep=",",header=True,mode='overwrite')
它创建名为-00000-fc644e84-7579-48的文件的问题

有没有办法修复此文件的名称。例如test.csv

谢谢


最好的

这是不可能的,因为作业中的每个分区都将创建自己的文件,并且必须遵循严格的约定以避免命名冲突。建议的解决方案是在创建文件后重命名该文件

另外,如果您知道每个路径只写一个文件。 例如,s3n://bucket/test/csv/a。那么,文件名是什么并不重要,只要读入唯一目录名的所有内容即可

资料来源: 1. 2.