Apache spark unpersist（）异步与同步_Apache Spark_Spark Dataframe_Spark Streaming

Apache spark unpersist（）异步与同步

apache-spark

Apache spark unpersist（）异步与同步,apache-spark,spark-dataframe,spark-streaming,Apache Spark,Spark Dataframe,Spark Streaming,我正在处理一个流应用程序，并试图取消持久化一个数据帧，所以用哪个方法清除cache unpersist（）--异步调用更好或取消持久化（true）--阻止调用使用哪个更好？为什么？DF中的数据大小接近150Gb。在这两种情况下，内部会发生什么 df.unpersist() //df is a cached dataframe val inputDf: DataFrame = readFile(spec, sparkSession) //read file from S3 or anyoth

我正在处理一个流应用程序，并试图取消持久化一个数据帧，所以用哪个方法清除cache unpersist（）--异步调用更好或取消持久化（true）--阻止调用

使用哪个更好？为什么？DF中的数据大小接近150Gb。在这两种情况下，内部会发生什么

df.unpersist() //df is a cached dataframe
val inputDf: DataFrame = readFile(spec, sparkSession) //read file from S3
or anyother source
val recreateddf = inputDf.persist()

Spark文档

DataFrame   unpersist() 
DataFrame   unpersist(boolean blocking)

我无法回答您的问题，但我很好奇，当您取消持久化150gb DF，然后重建并持久化它时，您会看到什么样的延迟？通常需要多长时间？