Scala 清理S3上Spark失败的作业暂存目录

Scala 清理S3上Spark失败的作业暂存目录,scala,apache-spark,amazon-s3,pyspark,yarn,Scala,Apache Spark,Amazon S3,Pyspark,Yarn,我有一个Spark作业,它将数据写入AWS S3,有时应用程序会失败,这会将Spark暂存目录留在S3上,如下所示。 我的问题是,自动化清理这些目录的最佳实践是什么,以及如何实现这一点? 是否有Spark配置来执行此操作,或者应该有一个独立的步骤来执行清理

我有一个Spark作业,它将数据写入AWS S3,有时应用程序会失败,这会将Spark暂存目录留在S3上,如下所示。

我的问题是,自动化清理这些目录的最佳实践是什么,以及如何实现这一点? 是否有Spark配置来执行此操作,或者应该有一个独立的步骤来执行清理