Apache spark Spark 2.x数据帧还是数据集?

Apache spark Spark 2.x数据帧还是数据集?,apache-spark,spark-dataframe,apache-spark-dataset,Apache Spark,Spark Dataframe,Apache Spark Dataset,据我所知,Spark 1.x和2.x之间的一个重大变化是从数据帧迁移到采用更新/改进的数据集对象 然而,在所有的应用程序中,我看到使用的是数据帧,而不是数据集 所以我问:在Spark 2.x中,我们仍然在使用数据帧,还是Spark 2.x文档没有更新以使用更新的+推荐的数据集?数据帧是数据集,只是一种特殊类型的数据集,即Dataset[Row],意思是非类型化的数据集 但事实上,即使使用Spark 2.x,许多Spark用户仍然使用数据帧,特别是对于快速原型设计,我是其中之一,因为它是一个非常方

据我所知,Spark 1.x和2.x之间的一个重大变化是从数据帧迁移到采用更新/改进的数据集对象

然而,在所有的应用程序中,我看到使用的是数据帧,而不是数据集

所以我问:在Spark 2.x中,我们仍然在使用数据帧,还是Spark 2.x文档没有更新以使用更新的+推荐的数据集?

数据帧是数据集,只是一种特殊类型的数据集,即Dataset[Row],意思是非类型化的数据集


但事实上,即使使用Spark 2.x,许多Spark用户仍然使用数据帧,特别是对于快速原型设计,我是其中之一,因为它是一个非常方便的API,而且在我看来,很多操作在数据帧上比在数据集上更容易操作

显然,你可以同时使用这两种方法,但Spark没有人费心更新文档来展示如何使用数据集,所以我猜他们真的希望我们像在1.x中那样使用数据帧。

啊好的,那么Spark还没有更新他们的文档吗?没有。DataFrame是数据集的一个特定的、高度优化的变体,它比一般数据集提供了更多的功能集。它没有被弃用或过时,因此没有理由更新文档。哦,很好,好的,主站点上有任何Spark文档/示例演示如何创建或使用数据集吗?没有?奇怪的这可能是一个巨大的疏忽。我认为这个问题更多的是确认使用哪个,而不是太多关于他们的差异。