Apache spark 默认情况下,是由RDD';什么在阿帕奇星火?
我想了解Spark的记忆功能。在这个过程中我遇到了 它基本上是内存数据层,通过使用沿袭系统提供无需复制的容错性,并减少重复计算Apache spark 默认情况下,是由RDD';什么在阿帕奇星火?,apache-spark,bigdata,rdd,in-memory-database,alluxio,Apache Spark,Bigdata,Rdd,In Memory Database,Alluxio,我想了解Spark的记忆功能。在这个过程中我遇到了 它基本上是内存数据层,通过使用沿袭系统提供无需复制的容错性,并减少重复计算 通过检查指向数据集。现在让人困惑的是,Spark的标准s系统也可以实现所有这些功能。所以我想知道RDD是否在窗帘后面实现了超光速子来实现这些功能?如果不是,那么超光速子的用途是什么?它的所有工作都可以通过标准RDD完成。还是我把这两者联系起来有什么错误?一个详细的解释或链接将是一个很大的帮助。谢谢。您链接的论文中的内容并没有反映出Tachyon作为一个开源项目发布的真实
通过检查指向数据集。现在让人困惑的是,Spark的标准s系统也可以实现所有这些功能。所以我想知道RDD是否在窗帘后面实现了超光速子来实现这些功能?如果不是,那么超光速子的用途是什么?它的所有工作都可以通过标准RDD完成。还是我把这两者联系起来有什么错误?一个详细的解释或链接将是一个很大的帮助。谢谢。您链接的论文中的内容并没有反映出Tachyon作为一个开源项目发布的真实情况,该论文的部分内容只是作为研究原型存在,从未完全集成到Spark/Tachyon中 当您通过
rdd.persist(StorageLevel.OFF_HEAP)
将数据持久化到OFF_HEAP
存储级别时,它使用Tachyon将该数据作为文件写入Tachyon的内存空间。这会将其从Java堆中移除,从而为Spark提供更多的堆内存
它目前没有写入沿袭信息,因此如果您的数据太大,无法装入已配置的超光速粒子群,RDD的内存部分将丢失,您的Spark作业可能会失败。感谢Rob的回答。因此,Tachyon实际上在RDDs中默认用于其中一个持久性级别,但Tachyon并没有实现所有这些特性,而是RDDs实现了所有这些特性。我说得对吗?据我所知,这是一个准确的描述