Pyspark dataframe写入拼花地板而不删除/_临时文件夹_Pyspark_Pyspark Sql

Pyspark dataframe写入拼花地板而不删除/_临时文件夹

pyspark

Pyspark dataframe写入拼花地板而不删除/_临时文件夹,pyspark,pyspark-sql,Pyspark,Pyspark Sql,我正在使用它将拼花文件写入S3位置。似乎为了编写文件，它还创建了一个/\u临时目录，并在使用后将其删除。所以我被拒绝了。AWS帐户上的管理员不想授予该文件夹的代码删除权限我建议将文件写入另一个文件夹，在该文件夹中可以授予删除权限，然后复制文件。但是管理员仍然希望我将文件直接写入目标文件夹我是否可以设置某些配置，要求Pyspark不要删除临时目录我认为\u temporary文件夹没有这样的选项但是，如果您正在EMR集群上运行Spark作业，则可以首先写入集群的本地HDF，然后使用Hado

我正在使用它将拼花文件写入S3位置。似乎为了编写文件，它还创建了一个

/\u临时

目录，并在使用后将其删除。所以我被拒绝了。AWS帐户上的管理员不想授予该文件夹的代码删除权限

我建议将文件写入另一个文件夹，在该文件夹中可以授予删除权限，然后复制文件。但是管理员仍然希望我将文件直接写入目标文件夹

我是否可以设置某些配置，要求Pyspark不要删除临时目录

我认为

\u temporary

文件夹没有这样的选项

但是，如果您正在EMR集群上运行Spark作业，则可以首先写入集群的本地HDF，然后使用Hadoop

FileUtil.copy

函数将数据复制到S3

在Pyspark上，您可以通过JVM网关访问此函数，如下所示：

df.write.mode("append").parquet(path)

你是如何在AWS上运行这个的。我正在使用的AWS EMR服务的名称是什么

sc._gateway.jvm.org.apache.hadoop.fs.FileUtil