Apache spark 是否可以从spark.local.dir读取RDD,如果没有,那么还有什么其他可能的方法可以持久化并读取这些RDD';s

Apache spark 是否可以从spark.local.dir读取RDD,如果没有,那么还有什么其他可能的方法可以持久化并读取这些RDD';s,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我从流中读取数据,然后处理这些数据。我有多个项目读取同一个流,然后使用它。 所以,我不想一次又一次地读取同一个流,而是想创建一个从流中读取然后持久化RDD的项目。 然后在所有其他项目中,我可以从那些持久化的RDD中读取数据 是否可以从spark.local.dir读取RDD,如果可以,那么如何读取,如果不可以,那么还有什么其他可能的方法可以持久化并读取这些RDD 也在考虑保存文本文件,但不知道如何保存对象,以及如何处理大量文件。如果有办法为这些生成的文件设置TTL,请共享。将其保存到Tachyo

我从流中读取数据,然后处理这些数据。我有多个项目读取同一个流,然后使用它。 所以,我不想一次又一次地读取同一个流,而是想创建一个从流中读取然后持久化RDD的项目。 然后在所有其他项目中,我可以从那些持久化的RDD中读取数据

是否可以从spark.local.dir读取RDD,如果可以,那么如何读取,如果不可以,那么还有什么其他可能的方法可以持久化并读取这些RDD

也在考虑保存文本文件,但不知道如何保存对象,以及如何处理大量文件。如果有办法为这些生成的文件设置TTL,请共享。

将其保存到Tachyon。使用SaveAsObject文件(“tachyon://tachyon-master:19998/some/path)或者,如果是数据帧,则可以使用拼花格式而不是对象文件

清理旧文件是另一个问题。也许一个cron工作就足够了?

请看,其中的共识是“不,他们不应该”!