Apache spark 为什么Apache Spark添加了cache()方法,尽管我们可以通过调用persist(仅限StorageLevel.MEMORY_)实现相同的功能
为什么spark在其库(即rdd.py)中添加了cache()方法,即使它在内部调用self.persist(仅限StorageLevel.MEMORY_),如下所述:Apache spark 为什么Apache Spark添加了cache()方法,尽管我们可以通过调用persist(仅限StorageLevel.MEMORY_)实现相同的功能,apache-spark,caching,persist,Apache Spark,Caching,Persist,为什么spark在其库(即rdd.py)中添加了cache()方法,即使它在内部调用self.persist(仅限StorageLevel.MEMORY_),如下所述: def cache(self): """ Persist this RDD with the default storage level (C{MEMORY_ONLY}). """ self.is_cached = True self.persist(StorageLevel.MEMORY
def cache(self):
"""
Persist this RDD with the default storage level (C{MEMORY_ONLY}).
"""
self.is_cached = True
self.persist(StorageLevel.MEMORY_ONLY)
return self
缓存
是一种方便的数据帧缓存方法Persist
是一种以存储级别为参数,对数据帧进行相应持久化的高级方法
缓存
和持久化
的默认存储级别与您提到的相同且重复。你可以用任何一种。
在Scala实现中,
cache
调用persist
def cache():this.type=persist()
。这告诉我,persist
是真正的实现,cache
是糖语法 我建议你去问问开发它的人。这本身不是一个编程问题。:)您还应该能够在他们的文档/手册中找到一些内容。