Pyspark GroupBy和agg的多列性能_Pyspark

Pyspark GroupBy和agg的多列性能

pyspark

Pyspark GroupBy和agg的多列性能,pyspark,Pyspark,我有一个大约30000行和6列“a”、“B”、“C”、“D”、“E”、“F”的大型数据帧。我想按列[“A”，“B”]分组，并对其余列进行总和聚合。下面是我尝试过的三种方法。该实验正在hadoop系统上运行 df=df.groupBy（“A”、“B”）.sum（） df=df.groupBy（“A”，“B”）.agg（{“C”：“sum”，“D”：“sum”，“E”：“sum”，“F”：“sum”}）按各个列分组，然后将结果合并在一起方法1总是给我错误。方法2是有效的，但它确实很慢，有时会卡在

我有一个大约30000行和6列“a”、“B”、“C”、“D”、“E”、“F”的大型数据帧。我想按列[“A”，“B”]分组，并对其余列进行总和聚合。下面是我尝试过的三种方法。该实验正在hadoop系统上运行

df=df.groupBy（“A”、“B”）.sum（）

df=df.groupBy（“A”，“B”）.agg（{“C”：“sum”，“D”：“sum”，“E”：“sum”，“F”：“sum”}）

按各个列分组，然后将结果合并在一起

方法1总是给我错误。方法2是有效的，但它确实很慢，有时会卡在那里。方法3似乎很有效。有人能解释一下原因吗？谢谢