Apache spark Spark-有没有办法清理孤立的RDD文件和块管理器文件夹(使用pyspark)?

Apache spark Spark-有没有办法清理孤立的RDD文件和块管理器文件夹(使用pyspark)?,apache-spark,pyspark,pyspark-sql,Apache Spark,Pyspark,Pyspark Sql,我目前正在Windows环境中运行/试验Spark,并注意到大量孤立的blockmgr文件夹和rdd文件。当我没有足够的内存来缓存完整的数据集时,就会创建这些文件 我怀疑当进程失败时,他们会被甩在后面 目前,我正在不时地手动删除它们(当磁盘空间用完时…)。我还玩了一个简单的文件操作脚本 我想知道,是否有可用的pyspark函数或脚本来清理这些文件,或者在流程启动时检查它们的方法 感谢@cronoik,通过设置以下属性解决了此问题: spark.worker.cleanup.enabled tru

我目前正在Windows环境中运行/试验Spark,并注意到大量孤立的blockmgr文件夹和rdd文件。当我没有足够的内存来缓存完整的数据集时,就会创建这些文件

我怀疑当进程失败时,他们会被甩在后面

目前,我正在不时地手动删除它们(当磁盘空间用完时…)。我还玩了一个简单的文件操作脚本

我想知道,是否有可用的pyspark函数或脚本来清理这些文件,或者在流程启动时检查它们的方法


感谢@cronoik,通过设置以下属性解决了此问题:

spark.worker.cleanup.enabled true

在我的实例中,在单节点Windows环境中使用“本地”和“独立”模式,我在spark-defaults.conf文件中设置了这一点


有关更多信息,请参阅文档:

根据@cronoik,可通过设置以下属性解决此问题:

spark.worker.cleanup.enabled true

在我的实例中,在单节点Windows环境中使用“本地”和“独立”模式,我在spark-defaults.conf文件中设置了这一点


有关更多信息,请参阅文档:

这是独立模式吗?检查一下,谢谢。是的,这是独立模式。我会检查的out@cronoik,如果你想扩大你的评论作为回答,我会接受的。尝试了一下,似乎做了我需要的大部分事情(snappy DLL仍然存在,但这似乎是一个常见的抱怨)。这是独立模式吗?检查一下,谢谢。是的,这是独立模式。我会检查的out@cronoik,如果你想扩大你的评论作为回答,我会接受的。尝试了一下,似乎做了我需要的大部分事情(snappy DLL仍然存在,但这似乎是一个常见的抱怨)。谢谢