Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/jsp/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark spark表是否像RDBMS一样永久存储数据,并且数据始终可用?_Apache Spark_Apache Spark Sql_Databricks - Fatal编程技术网

Apache spark spark表是否像RDBMS一样永久存储数据,并且数据始终可用?

Apache spark spark表是否像RDBMS一样永久存储数据,并且数据始终可用?,apache-spark,apache-spark-sql,databricks,Apache Spark,Apache Spark Sql,Databricks,我是Spark的新手,我试图了解它的功能。基本上,我来自数据库背景,对Spark数据库和表感到困惑。所以,我的困惑是spark是否也会像RDBMS或其他非sql存储一样,将数据永久存储在自己的数据库中,并使其始终可用? 或者它只是为传入数据创建一个参考点,直到处理期间,一旦处理结束,数据就会消失。 因此,基本上,spark是如何被利用的,我们必须定期批量或连续流式处理数据。spark表中数据的生存时间是多少?spark不是数据库。它本身不会永久存储数据。它是一个集群计算框架/引擎,也可以在独立环

我是Spark的新手,我试图了解它的功能。基本上,我来自数据库背景,对Spark数据库和表感到困惑。所以,我的困惑是spark是否也会像RDBMS或其他非sql存储一样,将数据永久存储在自己的数据库中,并使其始终可用? 或者它只是为传入数据创建一个参考点,直到处理期间,一旦处理结束,数据就会消失。
因此,基本上,spark是如何被利用的,我们必须定期批量或连续流式处理数据。spark表中数据的生存时间是多少?

spark不是数据库。它本身不会永久存储数据。它是一个集群计算框架/引擎,也可以在独立环境中工作。spark所做的就是从各种来源获取数据,比如HDFS、S3、本地文件系统、rdbms、nosql等等。。。并在各个工作节点的内存(RAM)中进行任何分析或转换。如果数据不适合RAM,它可以将数据溢出到本地磁盘。一旦操作完成,数据将被清除。虽然您可以缓存或持久化,并且在spark上下文运行之前它将可用,但有时即使您缓存数据且内存已满,它也会计算LRU(最近使用最少的)rdd并将其清除以存储其他rdd。内存管理在spark中是一个有趣的概念。

如果您谈论的是使用
createOrReplaceTempView
创建的表,这些表与spark会话绑定,并在会话结束后被删除。spark支持用于持久存储的配置单元元存储,这是一种RDBMS