有没有更简单的方法来组合100+；将不同列放在一起的PySpark数据帧（不是合并，而是追加）_Pyspark_Pyspark Dataframes

有没有更简单的方法来组合100+；将不同列放在一起的PySpark数据帧（不是合并，而是追加）

pyspark

有没有更简单的方法来组合100+；将不同列放在一起的PySpark数据帧（不是合并，而是追加）,pyspark,pyspark-dataframes,Pyspark,Pyspark Dataframes,假设我有很多dataframe，结构相似，但列不同。我想把它们结合在一起，如何更容易地做到这一点例如，df1、df2、df3如下所示： df1 df2 df3 将是： id base1 base2 col1 col2 col3 col4 1 1 100 30 1 2 3 2 2 200 40 2 3 4 3 3 300 20 4 4 5 5 4

假设我有很多dataframe，结构相似，但列不同。我想把它们结合在一起，如何更容易地做到这一点

例如，df1、df2、df3如下所示：

df1

df2

df3

将是：

   id   base1 base2 col1 col2 col3 col4
   1    1     100   30    1    2    3
   2    2     200   40    2    3    4
   3    3     300   20    4    4    5
   5    4     100   15   NaN  NaN  NaN 
   6    1     99    18   NaN  NaN  NaN 
   7    2     89    9    NaN  NaN  NaN 
   9    2     77    12    3   NaN  NaN
   10   1     89    16    5   NaN  NaN
   11   2     88    10    7   NaN  NaN

目前我使用以下代码：

from pyspark.sql import SparkSession, HiveContext
from pyspark.sql.functions import lit
from pyspark.sql import Row

def customUnion(df1, df2):
    cols1 = df1.columns
    cols2 = df2.columns
    total_cols = sorted(cols1 + list(set(cols2) - set(cols1)))
    def expr(mycols, allcols):
        def processCols(colname):
            if colname in mycols:
                return colname
            else:
                return lit(None).alias(colname)
        cols = map(processCols, allcols)
        return list(cols)
    appended = df1.select(expr(cols1, total_cols)).union(df2.select(expr(cols2, total_cols)))
    return appended

df_comb1=customUnion(df1,df2)
df_comb2=customUnion(df_comb1,df3)

但是，如果我继续创建新的数据帧，如df4、df5等（100+）我的代码变得乱七八糟

有没有一种更简单的编码方法

提前感谢

您可以使用数据帧列表和函数来管理它，而无需对每个数据帧进行静态命名

dataframes = [df1,df2,df3] # load data frames

计算所有可能列的集合：

all_cols = {i for lst in [df.columns for df in dataframes] for i in lst}
#{'base1', 'base2', 'col1', 'col2', 'col3', 'col4', 'id'}

将缺少的列添加到DF的函数：

def add_missing_cols(df, cols):
    v = df
    for col in [c for c in cols if (not c in df.columns)]:
        v = v.withColumn(col, f.lit(None))
    return v

completed_dfs = [add_missing_cols(df, all_cols) for df in dataframes]

res = completed_dfs[0]
for df in completed_dfs[1:]:
    res = res.unionAll(df)

res.show()

非常感谢，这正是我想要的。只需通过更改dataframes代码来测试它，它工作得非常完美！我算出了需要排序的列。否则会引起一些麻烦。所以最终我通过使用for循环切换回我的旧UDF

dataframes = [df1,df2,df3] # load data frames

all_cols = {i for lst in [df.columns for df in dataframes] for i in lst}
#{'base1', 'base2', 'col1', 'col2', 'col3', 'col4', 'id'}

def add_missing_cols(df, cols):
    v = df
    for col in [c for c in cols if (not c in df.columns)]:
        v = v.withColumn(col, f.lit(None))
    return v

completed_dfs = [add_missing_cols(df, all_cols) for df in dataframes]

res = completed_dfs[0]
for df in completed_dfs[1:]:
    res = res.unionAll(df)

res.show()

+---+-----+-----+----+----+----+----+
| id|base1|base2|col1|col2|col3|col4|
+---+-----+-----+----+----+----+----+
|  1|    1|  100|  30|   1|   2|   3|
|  2|    2|  200|  40|   2|   3|   4|
|  3|    3|  300|  20|   4|   4|   5|
|  5|    4|  100|  15|null|null|null|
|  6|    1|   99|  18|null|null|null|
|  7|    2|   89|   9|null|null|null|
|  9|    2|   77|  12|   3|null|null|
| 10|    1|   89|  16|   5|null|null|
| 11|    2|   88|  10|   7|null|null|
+---+-----+-----+----+----+----+----+