Dataframe 为什么Spark对数据帧使用有序模式？_Dataframe_Apache Spark_Pyspark_Apache Spark Sql_Pyspark Dataframes

Dataframe 为什么Spark对数据帧使用有序模式？

dataframe apache-spark pyspark

Dataframe 为什么Spark对数据帧使用有序模式？,dataframe,apache-spark,pyspark,apache-spark-sql,pyspark-dataframes,Dataframe,Apache Spark,Pyspark,Apache Spark Sql,Pyspark Dataframes,我想知道为什么spark在dataframe中使用有序模式，而不是使用基于名称的模式，其中两个模式被认为是相同的，如果它们对于每个列名具有相同的类型我的第一个问题是，在激发列排序的模式中对列进行排序有什么好处？当我们有这个假设时，它会使数据帧上的一些操作更快吗我的第二个问题是，我是否可以告诉SCALL，列的顺序对我并不重要，如果两个模式的列和它们的类型不一致，则考虑两个模式是相同的。 StaseDATAFAFRAMS不是关系数据库。它为某些类型的处理节省了时间；e、 g.union，它实际上

我想知道为什么spark在dataframe中使用有序模式，而不是使用基于名称的模式，其中两个模式被认为是相同的，如果它们对于每个列名具有相同的类型

我的第一个问题是，在激发列排序的模式中对列进行排序有什么好处？当我们有这个假设时，它会使数据帧上的一些操作更快吗

我的第二个问题是，我是否可以告诉SCALL，列的顺序对我并不重要，如果两个模式的列和它们的类型不一致，则考虑两个模式是相同的。

StaseDATAFAFRAMS不是关系数据库。它为某些类型的处理节省了时间；e、 g.

union

，它实际上将从上一个DF中获取名称。所以，这是一个实现细节

因此，您不能声明顺序与火花无关。见下文的联合体：

val df2 = Seq(
  (1, "bat", "done"),
  (2, "mouse", "mone"),
  (3, "horse", "gun"),
  (4, "horse", "some")
).toDF("id", "animal", "talk")

val df = Seq(
  (1, "bat", "done"),
  (2, "mouse", "mone"),
  (3, "horse", "gun"),
  (4, "horse", "some")
).toDF("id", "talk", "animal")

val df3 = df.union(df2)

注意，对于JSON模式推断，所有内容都是按字母顺序排列的。这对我来说非常方便。

Spark数据帧不是关系数据库。它为某些类型的处理节省了时间；e、 g.

union

，它实际上将从上一个DF中获取名称。所以，这是一个实现细节

因此，您不能声明顺序与火花无关。见下文的联合体：

val df2 = Seq(
  (1, "bat", "done"),
  (2, "mouse", "mone"),
  (3, "horse", "gun"),
  (4, "horse", "some")
).toDF("id", "animal", "talk")

val df = Seq(
  (1, "bat", "done"),
  (2, "mouse", "mone"),
  (3, "horse", "gun"),
  (4, "horse", "some")
).toDF("id", "talk", "animal")

val df3 = df.union(df2)

注意，对于JSON模式推断，所有内容都是按字母顺序排列的。这对我来说非常方便。

谢谢。我明天会看到的。任何不接受答案的理由。谢谢。我明天会看到的。任何不接受答案的理由。