在pyspark中使用union或append组合两个不同宽度的数据帧

在pyspark中使用union或append组合两个不同宽度的数据帧,pyspark,Pyspark,df1.联合(df2) 如何扩展此功能以处理不同列数的pyspark数据帧?我建议添加具有空值的列 df.withColumn('missing_column_name',lit(None)).withCol...... 然后执行联合 同样重要的是,每列的位置都应该相互匹配,否则您可以使用unionByName。我建议添加那些具有空值的列 df.withColumn('missing_column_name',lit(None)).withCol...... 然后执行联合 同样重要的是,每列

df1.联合(df2)


如何扩展此功能以处理不同列数的pyspark数据帧?

我建议添加具有空值的列

df.withColumn('missing_column_name',lit(None)).withCol......
然后执行联合


同样重要的是,每列的位置都应该相互匹配,否则您可以使用unionByName。

我建议添加那些具有空值的列

df.withColumn('missing_column_name',lit(None)).withCol......
然后执行联合


同样重要的是,每列的位置应相互匹配,否则可以使用unionByName。

如果要组合两个数据帧,则需要使用join,只有列保持不变,union才适用。如果要组合两个数据帧,则需要使用join,只有列保持不变,union才适用。