Apache spark 在spark RDD中，应使用哪种方法来处理这种情况。解释一下？_Apache Spark_Pyspark_Rdd

Apache spark 在spark RDD中，应使用哪种方法来处理这种情况。解释一下？

apache-spark pyspark

Apache spark 在spark RDD中，应使用哪种方法来处理这种情况。解释一下？,apache-spark,pyspark,rdd,Apache Spark,Pyspark,Rdd,在从另一个RDD rdd0进行大量计算之后，您正在创建一个RDD rdd1。然后我们需要经常使用rdd1。rdd1的大小非常小，每个容器上都有足够的RAM。在spark RDD中，应使用哪种方法来处理这种情况。解释？使用缓存将计算结果缓存在内存中，这样就不需要重新计算： rdd1 = # operations on rdd0 rdd1.cache()

在从另一个RDD rdd0进行大量计算之后，您正在创建一个RDD rdd1。然后我们需要经常使用rdd1。rdd1的大小非常小，每个容器上都有足够的RAM。在spark RDD中，应使用哪种方法来处理这种情况。解释？

使用

缓存

将计算结果缓存在内存中，这样就不需要重新计算：

rdd1 = # operations on rdd0
rdd1.cache()