Apache spark Spark-有没有办法清理孤立的RDD文件和块管理器文件夹（使用pyspark）？_Apache Spark_Pyspark_Pyspark Sql

Apache spark Spark-有没有办法清理孤立的RDD文件和块管理器文件夹（使用pyspark）？

apache-spark pyspark

Apache spark Spark-有没有办法清理孤立的RDD文件和块管理器文件夹（使用pyspark）？,apache-spark,pyspark,pyspark-sql,Apache Spark,Pyspark,Pyspark Sql,我目前正在Windows环境中运行/试验Spark，并注意到大量孤立的blockmgr文件夹和rdd文件。当我没有足够的内存来缓存完整的数据集时，就会创建这些文件我怀疑当进程失败时，他们会被甩在后面目前，我正在不时地手动删除它们（当磁盘空间用完时…）。我还玩了一个简单的文件操作脚本我想知道，是否有可用的pyspark函数或脚本来清理这些文件，或者在流程启动时检查它们的方法感谢@cronoik，通过设置以下属性解决了此问题： spark.worker.cleanup.enabled tru

我目前正在Windows环境中运行/试验Spark，并注意到大量孤立的blockmgr文件夹和rdd文件。当我没有足够的内存来缓存完整的数据集时，就会创建这些文件

我怀疑当进程失败时，他们会被甩在后面

目前，我正在不时地手动删除它们（当磁盘空间用完时…）。我还玩了一个简单的文件操作脚本

我想知道，是否有可用的pyspark函数或脚本来清理这些文件，或者在流程启动时检查它们的方法

感谢@cronoik，通过设置以下属性解决了此问题：

spark.worker.cleanup.enabled true

在我的实例中，在单节点Windows环境中使用“本地”和“独立”模式，我在spark-defaults.conf文件中设置了这一点

有关更多信息，请参阅文档：

根据@cronoik，可通过设置以下属性解决此问题：

spark.worker.cleanup.enabled true

在我的实例中，在单节点Windows环境中使用“本地”和“独立”模式，我在spark-defaults.conf文件中设置了这一点

有关更多信息，请参阅文档：

这是独立模式吗？检查一下，谢谢。是的，这是独立模式。我会检查的out@cronoik，如果你想扩大你的评论作为回答，我会接受的。尝试了一下，似乎做了我需要的大部分事情（snappy DLL仍然存在，但这似乎是一个常见的抱怨）。这是独立模式吗？检查一下，谢谢。是的，这是独立模式。我会检查的out@cronoik，如果你想扩大你的评论作为回答，我会接受的。尝试了一下，似乎做了我需要的大部分事情（snappy DLL仍然存在，但这似乎是一个常见的抱怨）。谢谢