Pyspark dataframe写入拼花地板而不删除/_临时文件夹

Pyspark dataframe写入拼花地板而不删除/_临时文件夹,pyspark,pyspark-sql,Pyspark,Pyspark Sql,我正在使用它将拼花文件写入S3位置。似乎为了编写文件,它还创建了一个/\u临时目录,并在使用后将其删除。所以我被拒绝了。AWS帐户上的管理员不想授予该文件夹的代码删除权限 我建议将文件写入另一个文件夹,在该文件夹中可以授予删除权限,然后复制文件。但是管理员仍然希望我将文件直接写入目标文件夹 我是否可以设置某些配置,要求Pyspark不要删除临时目录 我认为\u temporary文件夹没有这样的选项 但是,如果您正在EMR集群上运行Spark作业,则可以首先写入集群的本地HDF,然后使用Hado

我正在使用它将拼花文件写入S3位置。似乎为了编写文件,它还创建了一个
/\u临时
目录,并在使用后将其删除。所以我被拒绝了。AWS帐户上的管理员不想授予该文件夹的代码删除权限

我建议将文件写入另一个文件夹,在该文件夹中可以授予删除权限,然后复制文件。但是管理员仍然希望我将文件直接写入目标文件夹


我是否可以设置某些配置,要求Pyspark不要删除临时目录

我认为
\u temporary
文件夹没有这样的选项

但是,如果您正在EMR集群上运行Spark作业,则可以首先写入集群的本地HDF,然后使用Hadoop
FileUtil.copy
函数将数据复制到S3

在Pyspark上,您可以通过JVM网关访问此函数,如下所示:

df.write.mode("append").parquet(path)

你是如何在AWS上运行这个的。我正在使用的AWS EMR服务的名称是什么
sc._gateway.jvm.org.apache.hadoop.fs.FileUtil