Apache spark 自动删除PySpark中的检查点文件

Apache spark 自动删除PySpark中的检查点文件,apache-spark,pyspark,Apache Spark,Pyspark,我在PySpark代码中创建spark上下文和会话,如下所示 conf = SparkConf().set("spark.cleaner.referenceTracking.cleanCheckpoints", "true") sc = SparkContext.getOrCreate(conf=conf) spark = SparkSession(sc) spark.sparkContext.setCheckpointDir("../../checkpoints") 在下面的代码中,我在一

我在PySpark代码中创建spark上下文和会话,如下所示

conf = SparkConf().set("spark.cleaner.referenceTracking.cleanCheckpoints", "true")
sc = SparkContext.getOrCreate(conf=conf)

spark = SparkSession(sc)
spark.sparkContext.setCheckpointDir("../../checkpoints")
在下面的代码中,我在一些数据帧上使用了
checkpoint()
。它按预期工作

但是我想在代码运行完成后删除检查点

我可以使用spark配置吗<代码>清除检查点没有这样做


代码完成后,如何删除这些检查点文件?最好的方法是什么?

onApplicationStart
onApplicationEnd
方法
SparkListener
&查看
SparkListener
抽象类以了解其他有用的方法

注意
:下面的
scala
代码显示了如何注册SparkLister和访问方法


spark.sparkContext.addSparkListener(new SparkListener() {

  override def onApplicationStart(applicationStart: SparkListenerApplicationStart) {
    println("Spark ApplicationStart: " + applicationStart.appName);
  }
  override def onApplicationEnd(applicationEnd: SparkListenerApplicationEnd) {
    println("Spark ApplicationEnd: " + applicationEnd.time);
  }
});


应用程序启动
应用程序启动
方法中写入任何清理逻辑 &查看
SparkListener
抽象类以了解其他有用的方法

注意
:下面的
scala
代码显示了如何注册SparkLister和访问方法


spark.sparkContext.addSparkListener(new SparkListener() {

  override def onApplicationStart(applicationStart: SparkListenerApplicationStart) {
    println("Spark ApplicationStart: " + applicationStart.appName);
  }
  override def onApplicationEnd(applicationEnd: SparkListenerApplicationEnd) {
    println("Spark ApplicationEnd: " + applicationEnd.time);
  }
});


我如何在PySpark中做到这一点?这篇文章将帮助您实现同样的目标-我认为在python中实现同样的目标有点复杂…:)我如何在PySpark中实现同样的目标?这篇文章将帮助您实现同样的目标-我认为在python中实现同样的目标有点复杂…)相关:相关:和相关:和