Apache spark 默认情况下，是由RDD'；什么在阿帕奇星火？_Apache Spark_Bigdata_Rdd_In Memory Database_Alluxio

Apache spark 默认情况下，是由RDD'；什么在阿帕奇星火？

apache-spark

Apache spark 默认情况下，是由RDD'；什么在阿帕奇星火？,apache-spark,bigdata,rdd,in-memory-database,alluxio,Apache Spark,Bigdata,Rdd,In Memory Database,Alluxio,我想了解Spark的记忆功能。在这个过程中我遇到了它基本上是内存数据层，通过使用沿袭系统提供无需复制的容错性，并减少重复计算通过检查指向数据集。现在让人困惑的是，Spark的标准s系统也可以实现所有这些功能。所以我想知道RDD是否在窗帘后面实现了超光速子来实现这些功能？如果不是，那么超光速子的用途是什么？它的所有工作都可以通过标准RDD完成。还是我把这两者联系起来有什么错误？一个详细的解释或链接将是一个很大的帮助。谢谢。您链接的论文中的内容并没有反映出Tachyon作为一个开源项目发布的真实

我想了解Spark的记忆功能。在这个过程中我遇到了它基本上是内存数据层，通过使用沿袭系统提供无需复制的容错性，并减少重复计算

通过检查指向数据集。现在让人困惑的是，Spark的标准s系统也可以实现所有这些功能。所以我想知道RDD是否在窗帘后面实现了超光速子来实现这些功能？如果不是，那么超光速子的用途是什么？它的所有工作都可以通过标准RDD完成。还是我把这两者联系起来有什么错误？一个详细的解释或链接将是一个很大的帮助。谢谢。

您链接的论文中的内容并没有反映出Tachyon作为一个开源项目发布的真实情况，该论文的部分内容只是作为研究原型存在，从未完全集成到Spark/Tachyon中

当您通过

rdd.persist（StorageLevel.OFF_HEAP）

将数据持久化到

OFF_HEAP

存储级别时，它使用Tachyon将该数据作为文件写入Tachyon的内存空间。这会将其从Java堆中移除，从而为Spark提供更多的堆内存

它目前没有写入沿袭信息，因此如果您的数据太大，无法装入已配置的超光速粒子群，RDD的内存部分将丢失，您的Spark作业可能会失败。

感谢Rob的回答。因此，Tachyon实际上在RDDs中默认用于其中一个持久性级别，但Tachyon并没有实现所有这些特性，而是RDDs实现了所有这些特性。我说得对吗？据我所知，这是一个准确的描述