Pyspark 在Pypark中旋转

Pyspark 在Pypark中旋转,pyspark,Pyspark,我有一个数据帧: student_id class score 1 A 6 1 B 7 1 C 8 new_df = df.groupBy(['student_id']).pivot('class').sum(score) 我想将类分数分为3列,因此上述数据框应为: student_id class_A_score class_B_score class_C_score 1 6 7 8 其思想是将abc转换为3列。这是pivot的一个经典示例。在pyspark中,如果df是您的数据帧: s

我有一个数据帧:

student_id class score
1 A 6
1 B 7
1 C 8
new_df = df.groupBy(['student_id']).pivot('class').sum(score)
我想将
分数分为3列,因此上述数据框应为:

student_id class_A_score class_B_score class_C_score
1 6 7 8

其思想是将
abc
转换为3列。

这是pivot的一个经典示例。在pyspark中,如果
df
是您的数据帧:

student_id class score
1 A 6
1 B 7
1 C 8
new_df = df.groupBy(['student_id']).pivot('class').sum(score)

Databricks在

@eliasah上对此有很好的说明。你能帮我看看OP的问题和你提供的链接之间的相似性吗。重复此-@eliasah我对你提到的方法表示怀疑,请看看这个问题的答案是否是你所指的。我错过了阅读问题@RahulChawla