Scala 清理S3上Spark失败的作业暂存目录_Scala_Apache Spark_Amazon S3_Pyspark_Yarn

Scala 清理S3上Spark失败的作业暂存目录

scala apache-spark amazon-s3 pyspark

Scala 清理S3上Spark失败的作业暂存目录,scala,apache-spark,amazon-s3,pyspark,yarn,Scala,Apache Spark,Amazon S3,Pyspark,Yarn,我有一个Spark作业，它将数据写入AWS S3，有时应用程序会失败，这会将Spark暂存目录留在S3上，如下所示。我的问题是，自动化清理这些目录的最佳实践是什么，以及如何实现这一点？是否有Spark配置来执行此操作，或者应该有一个独立的步骤来执行清理

我有一个Spark作业，它将数据写入AWS S3，有时应用程序会失败，这会将Spark暂存目录留在S3上，如下所示。

我的问题是，自动化清理这些目录的最佳实践是什么，以及如何实现这一点？是否有Spark配置来执行此操作，或者应该有一个独立的步骤来执行清理