将csv文件从pypark dataframe保存到s3存储桶中_Dataframe_Amazon S3_Pyspark

将csv文件从pypark dataframe保存到s3存储桶中

dataframe amazon-s3 pyspark

将csv文件从pypark dataframe保存到s3存储桶中,dataframe,amazon-s3,pyspark,Dataframe,Amazon S3,Pyspark,我想将spark数据帧的内容保存到s3 bucket中的csv文件中： df_country.repartition(1).write.csv('s3n://bucket/test/csv/a',sep=",",header=True,mode='overwrite') 它创建名为-00000-fc644e84-7579-48的文件的问题有没有办法修复此文件的名称。例如test.csv 谢谢最好的这是不可能的，因为作业中的每个分区都将创建自己的文件，并且必须遵循严格的约定以避免命名冲突。建

我想将spark数据帧的内容保存到s3 bucket中的csv文件中：

df_country.repartition(1).write.csv('s3n://bucket/test/csv/a',sep=",",header=True,mode='overwrite')

它创建名为-00000-fc644e84-7579-48的文件的问题

有没有办法修复此文件的名称。例如test.csv

谢谢

最好的

这是不可能的，因为作业中的每个分区都将创建自己的文件，并且必须遵循严格的约定以避免命名冲突。建议的解决方案是在创建文件后重命名该文件

另外，如果您知道每个路径只写一个文件。例如，s3n://bucket/test/csv/a。那么，文件名是什么并不重要，只要读入唯一目录名的所有内容即可

资料来源： 1. 2.