Apache spark RDD可以在spark中保留多长时间_Apache Spark_Persistence_Spark Streaming_Rdd

Apache spark RDD可以在spark中保留多长时间

apache-spark

Apache spark RDD可以在spark中保留多长时间,apache-spark,persistence,spark-streaming,rdd,Apache Spark,Persistence,Spark Streaming,Rdd,我已经编写了一个程序，在其中我将RDD持久化到spark流中，这样一旦新的RDD来自spark流，我就可以将以前缓存的RDD与新的RDD连接起来。有没有办法为这个持久化的RDD设置生存时间，这样我就可以确保我没有加入我在上一个流周期中已经得到的RDD 另外，如果有人能够解释并指出RDD中的持久性是如何工作的，比如当我从spark上下文获得持久化RDD时，我如何在我当前的RDD中加入这些RDD。在spark Streaming中，流处理生成的RDD的生存时间由spark.cleaner.ttl配置

我已经编写了一个程序，在其中我将RDD持久化到spark流中，这样一旦新的RDD来自spark流，我就可以将以前缓存的RDD与新的RDD连接起来。有没有办法为这个持久化的RDD设置生存时间，这样我就可以确保我没有加入我在上一个流周期中已经得到的RDD

另外，如果有人能够解释并指出RDD中的持久性是如何工作的，比如当我从spark上下文获得持久化RDD时，我如何在我当前的RDD中加入这些RDD。

在spark Streaming中，流处理生成的RDD的生存时间由

spark.cleaner.ttl

配置控制。它默认为无限，但为了使其生效，我们还需要将

spark.streaming.unpersist

设置为false，以便spark streaming“激活”生成的RDD

请注意，没有可能的per RDD ttl