Dataframe 如何在pyspark中查找重复值的总和和计数?
我有数据帧dd1Dataframe 如何在pyspark中查找重复值的总和和计数?,dataframe,pyspark,pyspark-sql,Dataframe,Pyspark,Pyspark Sql,我有数据帧dd1 colA colB Total A A 12 A A 1 B B 45 B B 0 B B 5 C C 1 D D 12 我想要像dd2这样的输出: colA colB count Total A A 2
colA colB Total
A A 12
A A 1
B B 45
B B 0
B B 5
C C 1
D D 12
我想要像dd2这样的输出:
colA colB count Total
A A 2 13
B B 3 50
C C 1 1
D D 1 12
在“计数”列中,该值是它发生的次数,而“总计”列包含总计的总和 试试这个-
from pyspark.sql import functions as F
dd2 = dd1.groupBy('colA','colA').agg(F.count('colA').alias('count'),F.sum('Total').alias('Total'))
对前两列进行分组,然后进行计数和求和。我已经尝试过了,但它给出的是单个值,而不是dd2数据框。建议发布您所做的,然后查看错误。