Dataframe 如何在pyspark中查找重复值的总和和计数?

Dataframe 如何在pyspark中查找重复值的总和和计数?,dataframe,pyspark,pyspark-sql,Dataframe,Pyspark,Pyspark Sql,我有数据帧dd1 colA colB Total A A 12 A A 1 B B 45 B B 0 B B 5 C C 1 D D 12 我想要像dd2这样的输出: colA colB count Total A A 2

我有数据帧dd1

colA    colB    Total   
 A       A        12
 A       A         1
 B       B        45
 B       B         0
 B       B         5
 C       C         1
 D       D         12
我想要像dd2这样的输出:

colA    colB    count  Total   
 A       A        2      13
 B       B        3      50
 C       C        1       1
 D       D        1      12
在“计数”列中,该值是它发生的次数,而“总计”列包含总计的总和

试试这个-

from pyspark.sql import functions as F

dd2 = dd1.groupBy('colA','colA').agg(F.count('colA').alias('count'),F.sum('Total').alias('Total'))

对前两列进行分组,然后进行计数和求和。我已经尝试过了,但它给出的是单个值,而不是dd2数据框。建议发布您所做的,然后查看错误。