Dataframe 为什么Spark对数据帧使用有序模式?

Dataframe 为什么Spark对数据帧使用有序模式?,dataframe,apache-spark,pyspark,apache-spark-sql,pyspark-dataframes,Dataframe,Apache Spark,Pyspark,Apache Spark Sql,Pyspark Dataframes,我想知道为什么spark在dataframe中使用有序模式,而不是使用基于名称的模式,其中两个模式被认为是相同的,如果它们对于每个列名具有相同的类型 我的第一个问题是,在激发列排序的模式中对列进行排序有什么好处?当我们有这个假设时,它会使数据帧上的一些操作更快吗 我的第二个问题是,我是否可以告诉SCALL,列的顺序对我并不重要,如果两个模式的列和它们的类型不一致,则考虑两个模式是相同的。 StaseDATAFAFRAMS不是关系数据库。它为某些类型的处理节省了时间;e、 g.union,它实际上

我想知道为什么spark在dataframe中使用有序模式,而不是使用基于名称的模式,其中两个模式被认为是相同的,如果它们对于每个列名具有相同的类型

我的第一个问题是,在激发列排序的模式中对列进行排序有什么好处?当我们有这个假设时,它会使数据帧上的一些操作更快吗


我的第二个问题是,我是否可以告诉SCALL,列的顺序对我并不重要,如果两个模式的列和它们的类型不一致,则考虑两个模式是相同的。

StaseDATAFAFRAMS不是关系数据库。它为某些类型的处理节省了时间;e、 g.

union
,它实际上将从上一个DF中获取名称。所以,这是一个实现细节

因此,您不能声明顺序与火花无关。见下文的联合体:

val df2 = Seq(
  (1, "bat", "done"),
  (2, "mouse", "mone"),
  (3, "horse", "gun"),
  (4, "horse", "some")
).toDF("id", "animal", "talk")

val df = Seq(
  (1, "bat", "done"),
  (2, "mouse", "mone"),
  (3, "horse", "gun"),
  (4, "horse", "some")
).toDF("id", "talk", "animal")

val df3 = df.union(df2)

注意,对于JSON模式推断,所有内容都是按字母顺序排列的。这对我来说非常方便。

Spark数据帧不是关系数据库。它为某些类型的处理节省了时间;e、 g.
union
,它实际上将从上一个DF中获取名称。所以,这是一个实现细节

因此,您不能声明顺序与火花无关。见下文的联合体:

val df2 = Seq(
  (1, "bat", "done"),
  (2, "mouse", "mone"),
  (3, "horse", "gun"),
  (4, "horse", "some")
).toDF("id", "animal", "talk")

val df = Seq(
  (1, "bat", "done"),
  (2, "mouse", "mone"),
  (3, "horse", "gun"),
  (4, "horse", "some")
).toDF("id", "talk", "animal")

val df3 = df.union(df2)

注意,对于JSON模式推断,所有内容都是按字母顺序排列的。这对我来说非常方便。

谢谢。我明天会看到的。任何不接受答案的理由。谢谢。我明天会看到的。任何不接受答案的理由。