Apache spark 在ApacheSpark中,如何检查RDD是否已完全计算并保存在内存中?

Apache spark 在ApacheSpark中,如何检查RDD是否已完全计算并保存在内存中?,apache-spark,rdd,Apache Spark,Rdd,Apache Spark中的RDD(即其分区)是惰性计算的,但有时如果RDD的所有分区都已计算且结果在内存中,我希望重用RDD的结果,如果没有,则执行其他操作(例如,对结果的执行计划进行一些优化)。是否可以使用RDD的API来检查这一点?最好的方法是在web UI中检查RDD的详细信息。WebUI中的“存储”选项卡将为您提供RDD的列表以及它们被持久化的百分比。同样,您也有一个RESTAPI。但是,我更喜欢在Web UI中检查它们。每个spark应用程序都会有一个web UI,通常会有一个端口4

Apache Spark中的RDD(即其分区)是惰性计算的,但有时如果RDD的所有分区都已计算且结果在内存中,我希望重用RDD的结果,如果没有,则执行其他操作(例如,对结果的执行计划进行一些优化)。是否可以使用RDD的API来检查这一点?

最好的方法是在web UI中检查RDD的详细信息。WebUI中的“存储”选项卡将为您提供RDD的列表以及它们被持久化的百分比。同样,您也有一个RESTAPI。但是,我更喜欢在Web UI中检查它们。每个spark应用程序都会有一个web UI,通常会有一个端口4040或4041

更多详情:


如果您需要任何进一步的详细信息,请告诉我。

@tribbloid希望更改其代码中的操作过程,因此检查WEBUI似乎不是他的选项。同意,该问题已得到回答。请删除这个