Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 默认情况下,是由RDD';什么在阿帕奇星火?_Apache Spark_Bigdata_Rdd_In Memory Database_Alluxio - Fatal编程技术网

Apache spark 默认情况下,是由RDD';什么在阿帕奇星火?

Apache spark 默认情况下,是由RDD';什么在阿帕奇星火?,apache-spark,bigdata,rdd,in-memory-database,alluxio,Apache Spark,Bigdata,Rdd,In Memory Database,Alluxio,我想了解Spark的记忆功能。在这个过程中我遇到了 它基本上是内存数据层,通过使用沿袭系统提供无需复制的容错性,并减少重复计算 通过检查指向数据集。现在让人困惑的是,Spark的标准s系统也可以实现所有这些功能。所以我想知道RDD是否在窗帘后面实现了超光速子来实现这些功能?如果不是,那么超光速子的用途是什么?它的所有工作都可以通过标准RDD完成。还是我把这两者联系起来有什么错误?一个详细的解释或链接将是一个很大的帮助。谢谢。您链接的论文中的内容并没有反映出Tachyon作为一个开源项目发布的真实

我想了解Spark的记忆功能。在这个过程中我遇到了 它基本上是内存数据层,通过使用沿袭系统提供无需复制的容错性,并减少重复计算
通过检查指向数据集。现在让人困惑的是,Spark的标准s系统也可以实现所有这些功能。所以我想知道RDD是否在窗帘后面实现了超光速子来实现这些功能?如果不是,那么超光速子的用途是什么?它的所有工作都可以通过标准RDD完成。还是我把这两者联系起来有什么错误?一个详细的解释或链接将是一个很大的帮助。谢谢。

您链接的论文中的内容并没有反映出Tachyon作为一个开源项目发布的真实情况,该论文的部分内容只是作为研究原型存在,从未完全集成到Spark/Tachyon中

当您通过
rdd.persist(StorageLevel.OFF_HEAP)
将数据持久化到
OFF_HEAP
存储级别时,它使用Tachyon将该数据作为文件写入Tachyon的内存空间。这会将其从Java堆中移除,从而为Spark提供更多的堆内存


它目前没有写入沿袭信息,因此如果您的数据太大,无法装入已配置的超光速粒子群,RDD的内存部分将丢失,您的Spark作业可能会失败。

感谢Rob的回答。因此,Tachyon实际上在RDDs中默认用于其中一个持久性级别,但Tachyon并没有实现所有这些特性,而是RDDs实现了所有这些特性。我说得对吗?据我所知,这是一个准确的描述