Apache spark Spark：在树算法中使用RDD持久性_Apache Spark_Rdd

Apache spark Spark：在树算法中使用RDD持久性

apache-spark

Apache spark Spark：在树算法中使用RDD持久性,apache-spark,rdd,Apache Spark,Rdd,我有一棵树要按自底向上的顺序迭代。例如，我有一棵树，如： isEmpty | union / \ t_m t_n | | ... ... | | t_n+1 t_1 其中t_i是使用t_i-1进行转换的RDD。因此，union函数需要两个子RDD。自底向上算法将在（t_1，…，t_n，t_n+1，…，t_m，union）的列表我的问题是，坚持RDD有意义吗因为在计算了t_n之后，会进行很多进一步的计算（t_n+1到t_m）。如果Spar

我有一棵树要按自底向上的顺序迭代。例如，我有一棵树，如：

 isEmpty
    |
  union
  /   \
t_m   t_n
 |     |
...   ...
 |     |
t_n+1 t_1

其中t_i是使用t_i-1进行转换的RDD。因此，union函数需要两个子RDD。自底向上算法将在（t_1，…，t_n，t_n+1，…，t_m，union）的列表

我的问题是，坚持RDD有意义吗

因为在计算了t_n之后，会进行很多进一步的计算（t_n+1到t_m）。如果Spark喜欢LRU时尚，那么我想我应该坚持

谢谢

联合不是一个操作操作。您应该在触发操作操作后缓存/持久化rdd。

如果rdd包含大量数据且计算耗时，您应该持久化它。但是缓存/持久化也会占用资源，您必须谨慎使用。如果rdd包含大量数据且计算占用时间，则应将其持久化。但缓存/持久化也会占用资源，您必须谨慎使用。