Apache spark spark表是否像RDBMS一样永久存储数据，并且数据始终可用？_Apache Spark_Apache Spark Sql_Databricks

Apache spark spark表是否像RDBMS一样永久存储数据，并且数据始终可用？

apache-spark

Apache spark spark表是否像RDBMS一样永久存储数据，并且数据始终可用？,apache-spark,apache-spark-sql,databricks,Apache Spark,Apache Spark Sql,Databricks,我是Spark的新手，我试图了解它的功能。基本上，我来自数据库背景，对Spark数据库和表感到困惑。所以，我的困惑是spark是否也会像RDBMS或其他非sql存储一样，将数据永久存储在自己的数据库中，并使其始终可用？或者它只是为传入数据创建一个参考点，直到处理期间，一旦处理结束，数据就会消失。因此，基本上，spark是如何被利用的，我们必须定期批量或连续流式处理数据。spark表中数据的生存时间是多少？spark不是数据库。它本身不会永久存储数据。它是一个集群计算框架/引擎，也可以在独立环

我是Spark的新手，我试图了解它的功能。基本上，我来自数据库背景，对Spark数据库和表感到困惑。所以，我的困惑是spark是否也会像RDBMS或其他非sql存储一样，将数据永久存储在自己的数据库中，并使其始终可用？或者它只是为传入数据创建一个参考点，直到处理期间，一旦处理结束，数据就会消失。

因此，基本上，spark是如何被利用的，我们必须定期批量或连续流式处理数据。spark表中数据的生存时间是多少？

spark不是数据库。它本身不会永久存储数据。它是一个集群计算框架/引擎，也可以在独立环境中工作。spark所做的就是从各种来源获取数据，比如HDFS、S3、本地文件系统、rdbms、nosql等等。。。并在各个工作节点的内存（RAM）中进行任何分析或转换。如果数据不适合RAM，它可以将数据溢出到本地磁盘。一旦操作完成，数据将被清除。虽然您可以缓存或持久化，并且在spark上下文运行之前它将可用，但有时即使您缓存数据且内存已满，它也会计算LRU（最近使用最少的）rdd并将其清除以存储其他rdd。内存管理在spark中是一个有趣的概念。

如果您谈论的是使用

createOrReplaceTempView

创建的表，这些表与spark会话绑定，并在会话结束后被删除。spark支持用于持久存储的配置单元元存储，这是一种RDBMS