Pyspark 如何以一种将“分组”的方式进行联合;日期“;放入不同的列中,而不是将所有内容合并到同一列中
我对派斯帕克很陌生。这里是一个小情况,我为每个文件创建了一个数据帧(总共9个,每个文件代表每个月的计数),然后我需要将它们合并到一个大df中。问题是我需要它像这样出来,每个月都有自己的专栏Pyspark 如何以一种将“分组”的方式进行联合;日期“;放入不同的列中,而不是将所有内容合并到同一列中,pyspark,group-by,union,parquet,databricks,Pyspark,Group By,Union,Parquet,Databricks,我对派斯帕克很陌生。这里是一个小情况,我为每个文件创建了一个数据帧(总共9个,每个文件代表每个月的计数),然后我需要将它们合并到一个大df中。问题是我需要它像这样出来,每个月都有自己的专栏 name_id | 2020_01 | 2020_02 | 2020_03 1 23 43534 3455 2 12 34534 34534 3 2352 32525 23 然而,根
name_id | 2020_01 | 2020_02 | 2020_03
1 23 43534 3455
2 12 34534 34534
3 2352 32525 23
然而,根据我目前的代码,它将所有月份放在同一列下。我在互联网上搜索了很长一段时间,但找不到任何解决方法(也许我需要groupby,但不知道怎么做)。下面是我的代码。谢谢
df1=spark.read.format("parquet").load("dbfs:")
df2=spark.read.format("parquet").load("dbfs:")
df3=spark.read.format("parquet").load("dbfs:")
df4=spark.read.format("parquet").load("dbfs:")
df5=spark.read.format("parquet").load("dbfs:")
df6=spark.read.format("parquet").load("dbfs:")
df7=spark.read.format("parquet").load("dbfs:")
df8=spark.read.format("parquet").load("dbfs:")
df9=spark.read.format("parquet").load("dbfs:")
#union all 9 files
union_all=df1.unionAll(df2).unionAll(df3).unionAll(df4).unionAll(df5).unionAll(df6).unionAll(df7).unionAll(df8).unionAll(df9)
这是电流输出
name_id | count | date
1 23 2020_01
2 12 2020_01
1 43534 2020_02
2 34534 2020_02
我想这是一个偶然的复制品?这能回答你的问题吗?