Apache spark Spark:在树算法中使用RDD持久性

Apache spark Spark:在树算法中使用RDD持久性,apache-spark,rdd,Apache Spark,Rdd,我有一棵树要按自底向上的顺序迭代。 例如,我有一棵树,如: isEmpty | union / \ t_m t_n | | ... ... | | t_n+1 t_1 其中t_i是使用t_i-1进行转换的RDD。因此,union函数需要两个子RDD。自底向上算法将在 (t_1,…,t_n,t_n+1,…,t_m,union)的列表 我的问题是,坚持RDD有意义吗 因为在计算了t_n之后,会进行很多进一步的计算(t_n+1到t_m)。如果Spar

我有一棵树要按自底向上的顺序迭代。 例如,我有一棵树,如:

 isEmpty
    |
  union
  /   \
t_m   t_n
 |     |
...   ...
 |     |
t_n+1 t_1
其中t_i是使用t_i-1进行转换的RDD。因此,union函数需要两个子RDD。自底向上算法将在 (t_1,…,t_n,t_n+1,…,t_m,union)的列表

我的问题是,坚持RDD有意义吗

因为在计算了t_n之后,会进行很多进一步的计算(t_n+1到t_m)。如果Spark喜欢LRU时尚,那么我想我应该坚持


谢谢

联合不是一个操作操作。您应该在触发操作操作后缓存/持久化rdd。

联合不是一个操作操作。您应该在触发操作操作后缓存/持久化rdd。

如果rdd包含大量数据且计算耗时,您应该持久化它。但是缓存/持久化也会占用资源,您必须谨慎使用。如果rdd包含大量数据且计算占用时间,则应将其持久化。但缓存/持久化也会占用资源,您必须谨慎使用。