Apache spark spark表是否像RDBMS一样永久存储数据,并且数据始终可用?
我是Spark的新手,我试图了解它的功能。基本上,我来自数据库背景,对Spark数据库和表感到困惑。所以,我的困惑是spark是否也会像RDBMS或其他非sql存储一样,将数据永久存储在自己的数据库中,并使其始终可用? 或者它只是为传入数据创建一个参考点,直到处理期间,一旦处理结束,数据就会消失。Apache spark spark表是否像RDBMS一样永久存储数据,并且数据始终可用?,apache-spark,apache-spark-sql,databricks,Apache Spark,Apache Spark Sql,Databricks,我是Spark的新手,我试图了解它的功能。基本上,我来自数据库背景,对Spark数据库和表感到困惑。所以,我的困惑是spark是否也会像RDBMS或其他非sql存储一样,将数据永久存储在自己的数据库中,并使其始终可用? 或者它只是为传入数据创建一个参考点,直到处理期间,一旦处理结束,数据就会消失。 因此,基本上,spark是如何被利用的,我们必须定期批量或连续流式处理数据。spark表中数据的生存时间是多少?spark不是数据库。它本身不会永久存储数据。它是一个集群计算框架/引擎,也可以在独立环
因此,基本上,spark是如何被利用的,我们必须定期批量或连续流式处理数据。spark表中数据的生存时间是多少?spark不是数据库。它本身不会永久存储数据。它是一个集群计算框架/引擎,也可以在独立环境中工作。spark所做的就是从各种来源获取数据,比如HDFS、S3、本地文件系统、rdbms、nosql等等。。。并在各个工作节点的内存(RAM)中进行任何分析或转换。如果数据不适合RAM,它可以将数据溢出到本地磁盘。一旦操作完成,数据将被清除。虽然您可以缓存或持久化,并且在spark上下文运行之前它将可用,但有时即使您缓存数据且内存已满,它也会计算LRU(最近使用最少的)rdd并将其清除以存储其他rdd。内存管理在spark中是一个有趣的概念。如果您谈论的是使用
createOrReplaceTempView
创建的表,这些表与spark会话绑定,并在会话结束后被删除。spark支持用于持久存储的配置单元元存储,这是一种RDBMS