Apache spark 为什么Apache Spark添加了cache（）方法，尽管我们可以通过调用persist（仅限StorageLevel.MEMORY_）实现相同的功能_Apache Spark_Caching_Persist

Apache spark 为什么Apache Spark添加了cache（）方法，尽管我们可以通过调用persist（仅限StorageLevel.MEMORY_）实现相同的功能

apache-spark caching

Apache spark 为什么Apache Spark添加了cache（）方法，尽管我们可以通过调用persist（仅限StorageLevel.MEMORY_）实现相同的功能,apache-spark,caching,persist,Apache Spark,Caching,Persist,为什么spark在其库（即rdd.py）中添加了cache（）方法，即使它在内部调用self.persist（仅限StorageLevel.MEMORY_），如下所述： def cache(self): """ Persist this RDD with the default storage level (C{MEMORY_ONLY}). """ self.is_cached = True self.persist(StorageLevel.MEMORY

为什么spark在其库（即rdd.py）中添加了cache（）方法，即使它在内部调用self.persist（仅限StorageLevel.MEMORY_），如下所述：

def cache(self):
    """
    Persist this RDD with the default storage level (C{MEMORY_ONLY}).
    """
    self.is_cached = True
    self.persist(StorageLevel.MEMORY_ONLY)
    return self

缓存

是一种方便的数据帧缓存方法

Persist

是一种以存储级别为参数，对数据帧进行相应持久化的高级方法

缓存

和

持久化

的默认存储级别与您提到的相同且重复。你可以用任何一种。

在Scala实现中，

cache

调用

persist

def cache（）：this.type=persist（）

。这告诉我，

persist

是真正的实现，

cache

是糖语法

我建议你去问问开发它的人。这本身不是一个编程问题。：）您还应该能够在他们的文档/手册中找到一些内容。