有没有更简单的方法来组合100+;将不同列放在一起的PySpark数据帧(不是合并,而是追加)
假设我有很多dataframe,结构相似,但列不同。我想把它们结合在一起,如何更容易地做到这一点 例如,df1、df2、df3如下所示: df1 df2 df3 将是:有没有更简单的方法来组合100+;将不同列放在一起的PySpark数据帧(不是合并,而是追加),pyspark,pyspark-dataframes,Pyspark,Pyspark Dataframes,假设我有很多dataframe,结构相似,但列不同。我想把它们结合在一起,如何更容易地做到这一点 例如,df1、df2、df3如下所示: df1 df2 df3 将是: id base1 base2 col1 col2 col3 col4 1 1 100 30 1 2 3 2 2 200 40 2 3 4 3 3 300 20 4 4 5 5 4
id base1 base2 col1 col2 col3 col4
1 1 100 30 1 2 3
2 2 200 40 2 3 4
3 3 300 20 4 4 5
5 4 100 15 NaN NaN NaN
6 1 99 18 NaN NaN NaN
7 2 89 9 NaN NaN NaN
9 2 77 12 3 NaN NaN
10 1 89 16 5 NaN NaN
11 2 88 10 7 NaN NaN
目前我使用以下代码:
from pyspark.sql import SparkSession, HiveContext
from pyspark.sql.functions import lit
from pyspark.sql import Row
def customUnion(df1, df2):
cols1 = df1.columns
cols2 = df2.columns
total_cols = sorted(cols1 + list(set(cols2) - set(cols1)))
def expr(mycols, allcols):
def processCols(colname):
if colname in mycols:
return colname
else:
return lit(None).alias(colname)
cols = map(processCols, allcols)
return list(cols)
appended = df1.select(expr(cols1, total_cols)).union(df2.select(expr(cols2, total_cols)))
return appended
df_comb1=customUnion(df1,df2)
df_comb2=customUnion(df_comb1,df3)
但是,如果我继续创建新的数据帧,如df4、df5等(100+)
我的代码变得乱七八糟
有没有一种更简单的编码方法
提前感谢您可以使用数据帧列表和函数来管理它,而无需对每个数据帧进行静态命名
dataframes = [df1,df2,df3] # load data frames
计算所有可能列的集合:
all_cols = {i for lst in [df.columns for df in dataframes] for i in lst}
#{'base1', 'base2', 'col1', 'col2', 'col3', 'col4', 'id'}
将缺少的列添加到DF的函数:
def add_missing_cols(df, cols):
v = df
for col in [c for c in cols if (not c in df.columns)]:
v = v.withColumn(col, f.lit(None))
return v
completed_dfs = [add_missing_cols(df, all_cols) for df in dataframes]
res = completed_dfs[0]
for df in completed_dfs[1:]:
res = res.unionAll(df)
res.show()
非常感谢,这正是我想要的。只需通过更改dataframes代码来测试它,它工作得非常完美!我算出了需要排序的列。否则会引起一些麻烦。所以最终我通过使用for循环切换回我的旧UDF
dataframes = [df1,df2,df3] # load data frames
all_cols = {i for lst in [df.columns for df in dataframes] for i in lst}
#{'base1', 'base2', 'col1', 'col2', 'col3', 'col4', 'id'}
def add_missing_cols(df, cols):
v = df
for col in [c for c in cols if (not c in df.columns)]:
v = v.withColumn(col, f.lit(None))
return v
completed_dfs = [add_missing_cols(df, all_cols) for df in dataframes]
res = completed_dfs[0]
for df in completed_dfs[1:]:
res = res.unionAll(df)
res.show()
+---+-----+-----+----+----+----+----+
| id|base1|base2|col1|col2|col3|col4|
+---+-----+-----+----+----+----+----+
| 1| 1| 100| 30| 1| 2| 3|
| 2| 2| 200| 40| 2| 3| 4|
| 3| 3| 300| 20| 4| 4| 5|
| 5| 4| 100| 15|null|null|null|
| 6| 1| 99| 18|null|null|null|
| 7| 2| 89| 9|null|null|null|
| 9| 2| 77| 12| 3|null|null|
| 10| 1| 89| 16| 5|null|null|
| 11| 2| 88| 10| 7|null|null|
+---+-----+-----+----+----+----+----+