Apache spark RDD和传统关系数据库系统之间的区别是什么

Apache spark RDD和传统关系数据库系统之间的区别是什么,apache-spark,relational-database,rdd,rdbms,Apache Spark,Relational Database,Rdd,Rdbms,我是spark的新手,我了解SQL,但想知道RDD(弹性分布式数据集)和关系数据库(如体系结构级别和访问级别)之间的区别。谢谢。RDD(弹性分布式数据集)是Spark使用的内存中数据结构。它是不可变的数据结构。可以这样认为,spark在内存中加载了特定结构中的数据,该结构称为RDD。一旦你的spark工作停止,RDD就不存在了 另一方面,数据库是存储系统。您可以存储数据并在以后查询 我希望这能澄清。还有一件事——Spark可以从文件系统或数据库加载数据并创建RDD。文件系统和数据库是存储数据的两

我是spark的新手,我了解SQL,但想知道RDD(弹性分布式数据集)和关系数据库(如体系结构级别和访问级别)之间的区别。谢谢。

RDD(弹性分布式数据集)是Spark使用的内存中数据结构。它是不可变的数据结构。可以这样认为,spark在内存中加载了特定结构中的数据,该结构称为RDD。一旦你的spark工作停止,RDD就不存在了

另一方面,数据库是存储系统。您可以存储数据并在以后查询


我希望这能澄清。还有一件事——Spark可以从文件系统或数据库加载数据并创建RDD。文件系统和数据库是存储数据的两个地方。一旦数据被spark加载到内存中。spark使用名为RDD的数据结构来存储和处理它

。。。RDD是记录的集合,而不是关系实体。如果您想将您的想法映射到数据库表,您应该查看
Dataset
对象。您在JDBC中访问RDD,如
ResultSet
,例如
getColumn(x)
。。。不确定这是否回答了你的问题