Pyspark 如何以一种将“分组”的方式进行联合;日期“;放入不同的列中,而不是将所有内容合并到同一列中

Pyspark 如何以一种将“分组”的方式进行联合;日期“;放入不同的列中,而不是将所有内容合并到同一列中,pyspark,group-by,union,parquet,databricks,Pyspark,Group By,Union,Parquet,Databricks,我对派斯帕克很陌生。这里是一个小情况,我为每个文件创建了一个数据帧(总共9个,每个文件代表每个月的计数),然后我需要将它们合并到一个大df中。问题是我需要它像这样出来,每个月都有自己的专栏 name_id | 2020_01 | 2020_02 | 2020_03 1 23 43534 3455 2 12 34534 34534 3 2352 32525 23 然而,根

我对派斯帕克很陌生。这里是一个小情况,我为每个文件创建了一个数据帧(总共9个,每个文件代表每个月的计数),然后我需要将它们合并到一个大df中。问题是我需要它像这样出来,每个月都有自己的专栏

name_id |  2020_01 | 2020_02 | 2020_03
   1         23       43534     3455
   2         12       34534    34534
   3         2352     32525       23
然而,根据我目前的代码,它将所有月份放在同一列下。我在互联网上搜索了很长一段时间,但找不到任何解决方法(也许我需要groupby,但不知道怎么做)。下面是我的代码。谢谢

df1=spark.read.format("parquet").load("dbfs:")
df2=spark.read.format("parquet").load("dbfs:")
df3=spark.read.format("parquet").load("dbfs:")
df4=spark.read.format("parquet").load("dbfs:")
df5=spark.read.format("parquet").load("dbfs:")
df6=spark.read.format("parquet").load("dbfs:")
df7=spark.read.format("parquet").load("dbfs:")
df8=spark.read.format("parquet").load("dbfs:")
df9=spark.read.format("parquet").load("dbfs:")

#union all 9 files
union_all=df1.unionAll(df2).unionAll(df3).unionAll(df4).unionAll(df5).unionAll(df6).unionAll(df7).unionAll(df8).unionAll(df9)
这是电流输出

name_id | count | date
1          23     2020_01
2          12     2020_01
1         43534   2020_02
2         34534   2020_02

我想这是一个偶然的复制品?这能回答你的问题吗?