Pyspark GroupBy和agg的多列性能

Pyspark GroupBy和agg的多列性能,pyspark,Pyspark,我有一个大约30000行和6列“a”、“B”、“C”、“D”、“E”、“F”的大型数据帧。我想按列[“A”,“B”]分组,并对其余列进行总和聚合。下面是我尝试过的三种方法。该实验正在hadoop系统上运行 df=df.groupBy(“A”、“B”).sum() df=df.groupBy(“A”,“B”).agg({“C”:“sum”,“D”:“sum”,“E”:“sum”,“F”:“sum”}) 按各个列分组,然后将结果合并在一起 方法1总是给我错误。方法2是有效的,但它确实很慢,有时会卡在

我有一个大约30000行和6列“a”、“B”、“C”、“D”、“E”、“F”的大型数据帧。我想按列[“A”,“B”]分组,并对其余列进行总和聚合。下面是我尝试过的三种方法。该实验正在hadoop系统上运行

  • df=df.groupBy(“A”、“B”).sum()
  • df=df.groupBy(“A”,“B”).agg({“C”:“sum”,“D”:“sum”,“E”:“sum”,“F”:“sum”})
  • 按各个列分组,然后将结果合并在一起
  • 方法1总是给我错误。方法2是有效的,但它确实很慢,有时会卡在那里。方法3似乎很有效。有人能解释一下原因吗?谢谢