Apache spark 自动删除PySpark中的检查点文件
我在PySpark代码中创建spark上下文和会话,如下所示Apache spark 自动删除PySpark中的检查点文件,apache-spark,pyspark,Apache Spark,Pyspark,我在PySpark代码中创建spark上下文和会话,如下所示 conf = SparkConf().set("spark.cleaner.referenceTracking.cleanCheckpoints", "true") sc = SparkContext.getOrCreate(conf=conf) spark = SparkSession(sc) spark.sparkContext.setCheckpointDir("../../checkpoints") 在下面的代码中,我在一
conf = SparkConf().set("spark.cleaner.referenceTracking.cleanCheckpoints", "true")
sc = SparkContext.getOrCreate(conf=conf)
spark = SparkSession(sc)
spark.sparkContext.setCheckpointDir("../../checkpoints")
在下面的代码中,我在一些数据帧上使用了checkpoint()
。它按预期工作
但是我想在代码运行完成后删除检查点
我可以使用spark配置吗<代码>清除检查点没有这样做
代码完成后,如何删除这些检查点文件?最好的方法是什么?在
onApplicationStart
或onApplicationEnd
方法SparkListener
&查看SparkListener
抽象类以了解其他有用的方法
注意
:下面的scala
代码显示了如何注册SparkLister和访问方法
spark.sparkContext.addSparkListener(new SparkListener() {
override def onApplicationStart(applicationStart: SparkListenerApplicationStart) {
println("Spark ApplicationStart: " + applicationStart.appName);
}
override def onApplicationEnd(applicationEnd: SparkListenerApplicationEnd) {
println("Spark ApplicationEnd: " + applicationEnd.time);
}
});
在
应用程序启动
或应用程序启动
方法中写入任何清理逻辑
&查看SparkListener
抽象类以了解其他有用的方法
注意
:下面的scala
代码显示了如何注册SparkLister和访问方法
spark.sparkContext.addSparkListener(new SparkListener() {
override def onApplicationStart(applicationStart: SparkListenerApplicationStart) {
println("Spark ApplicationStart: " + applicationStart.appName);
}
override def onApplicationEnd(applicationEnd: SparkListenerApplicationEnd) {
println("Spark ApplicationEnd: " + applicationEnd.time);
}
});
我如何在PySpark中做到这一点?这篇文章将帮助您实现同样的目标-我认为在python中实现同样的目标有点复杂…:)我如何在PySpark中实现同样的目标?这篇文章将帮助您实现同样的目标-我认为在python中实现同样的目标有点复杂…)相关:相关:和相关:和