Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark中的DataFrame是什么数据结构?_Apache Spark_Spark Dataframe - Fatal编程技术网

Apache spark Spark中的DataFrame是什么数据结构?

Apache spark Spark中的DataFrame是什么数据结构?,apache-spark,spark-dataframe,Apache Spark,Spark Dataframe,这是我上一篇文章的后续文章。 行是一组有序的键值对DataFrame是行的集合 实际上什么是数据结构?它是列表、集合还是其他“集合”?它是SQL中的关系吗 它是Spark2中对RDD[Row]或Dataset[Row]的抽象,通过一系列列类定义了模式集 它是列表、集合还是其他“集合” 而不是用Java的术语。类似于RDD不是这些,而是一个“惰性集合” 它是否与SQL中的关系相同 欢迎在数据帧上运行SparkSQL,但它是一个表。关系是可选的尽管数据帧是RDD的抽象,但数据帧的内部表示与RDD有很

这是我上一篇文章的后续文章。
是一组有序的键值对
DataFrame
行的集合


实际上什么是数据结构?它是列表、集合还是其他“集合”?它是SQL中的
关系吗

它是Spark2中对
RDD[Row]
Dataset[Row]
的抽象,通过一系列
类定义了模式集

它是列表、集合还是其他“集合”

而不是用Java的术语。类似于RDD不是这些,而是一个“惰性集合”

它是否与SQL中的关系相同


欢迎在数据帧上运行SparkSQL,但它是一个表。关系是可选的

尽管数据帧是RDD的抽象,但数据帧的内部表示与RDD有很大不同

RDD表示为JAVA对象,并使用JVM进行所有操作。然而,数据帧是用钨丝表示的


这里有一个很好的例子,详细说明了数据帧是如何用钨丝表示的。

在我回答之前,我能知道是什么让您认为“行是一组有序的键值对吗?”?另外,当您说“DataFrame是行的集合”时,您没有回答您的另一个问题“DataFrame实际上是什么数据结构?”吗?(1)我说行是有序集是错误的(请参见我前面问题中的注释)(2)DataFrame是行的集合并不是我想要的答案。我在寻找一个更“理论”的答案。