Apache spark 为什么Apache Spark添加了cache()方法,尽管我们可以通过调用persist(仅限StorageLevel.MEMORY_)实现相同的功能

Apache spark 为什么Apache Spark添加了cache()方法,尽管我们可以通过调用persist(仅限StorageLevel.MEMORY_)实现相同的功能,apache-spark,caching,persist,Apache Spark,Caching,Persist,为什么spark在其库(即rdd.py)中添加了cache()方法,即使它在内部调用self.persist(仅限StorageLevel.MEMORY_),如下所述: def cache(self): """ Persist this RDD with the default storage level (C{MEMORY_ONLY}). """ self.is_cached = True self.persist(StorageLevel.MEMORY

为什么spark在其库(即rdd.py)中添加了cache()方法,即使它在内部调用self.persist(仅限StorageLevel.MEMORY_),如下所述:

def cache(self):
    """
    Persist this RDD with the default storage level (C{MEMORY_ONLY}).
    """
    self.is_cached = True
    self.persist(StorageLevel.MEMORY_ONLY)
    return self

缓存
是一种方便的数据帧缓存方法
Persist
是一种以存储级别为参数,对数据帧进行相应持久化的高级方法

缓存
持久化
的默认存储级别与您提到的相同且重复。你可以用任何一种。
在Scala实现中,
cache
调用
persist
def cache():this.type=persist()
。这告诉我,
persist
是真正的实现,
cache
是糖语法

我建议你去问问开发它的人。这本身不是一个编程问题。:)您还应该能够在他们的文档/手册中找到一些内容。