Pyspark 如何以一种将“分组”的方式进行联合；日期“；放入不同的列中，而不是将所有内容合并到同一列中_Pyspark_Group By_Union_Parquet_Databricks

Pyspark 如何以一种将“分组”的方式进行联合；日期“；放入不同的列中，而不是将所有内容合并到同一列中

pyspark

Pyspark 如何以一种将“分组”的方式进行联合；日期“；放入不同的列中，而不是将所有内容合并到同一列中,pyspark,group-by,union,parquet,databricks,Pyspark,Group By,Union,Parquet,Databricks,我对派斯帕克很陌生。这里是一个小情况，我为每个文件创建了一个数据帧（总共9个，每个文件代表每个月的计数），然后我需要将它们合并到一个大df中。问题是我需要它像这样出来，每个月都有自己的专栏 name_id | 2020_01 | 2020_02 | 2020_03 1 23 43534 3455 2 12 34534 34534 3 2352 32525 23 然而，根

我对派斯帕克很陌生。这里是一个小情况，我为每个文件创建了一个数据帧（总共9个，每个文件代表每个月的计数），然后我需要将它们合并到一个大df中。问题是我需要它像这样出来，每个月都有自己的专栏

name_id |  2020_01 | 2020_02 | 2020_03
   1         23       43534     3455
   2         12       34534    34534
   3         2352     32525       23

然而，根据我目前的代码，它将所有月份放在同一列下。我在互联网上搜索了很长一段时间，但找不到任何解决方法（也许我需要groupby，但不知道怎么做）。下面是我的代码。谢谢

df1=spark.read.format("parquet").load("dbfs:")
df2=spark.read.format("parquet").load("dbfs:")
df3=spark.read.format("parquet").load("dbfs:")
df4=spark.read.format("parquet").load("dbfs:")
df5=spark.read.format("parquet").load("dbfs:")
df6=spark.read.format("parquet").load("dbfs:")
df7=spark.read.format("parquet").load("dbfs:")
df8=spark.read.format("parquet").load("dbfs:")
df9=spark.read.format("parquet").load("dbfs:")

#union all 9 files
union_all=df1.unionAll(df2).unionAll(df3).unionAll(df4).unionAll(df5).unionAll(df6).unionAll(df7).unionAll(df8).unionAll(df9)

这是电流输出

name_id | count | date
1          23     2020_01
2          12     2020_01
1         43534   2020_02
2         34534   2020_02

我想这是一个偶然的复制品？这能回答你的问题吗？