Dataframe groupby和聚合的Pyspark等价物

Dataframe groupby和聚合的Pyspark等价物,dataframe,apache-spark,pyspark,Dataframe,Apache Spark,Pyspark,我有一个pyspark数据帧,我正在尝试对其执行groupby和聚合 我在熊猫及其工作区执行以下操作: new_df = new_df.groupBy('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'H', 'K', 'L', 'Cost1','Cost2','Cost3','Cost4','Cost5') new_df = new_df.agg({'Cost1':sum, 'Cost2':sum, 'Cost3':sum,'Cost4':

我有一个pyspark数据帧,我正在尝试对其执行groupby和聚合

我在熊猫及其工作区执行以下操作:

new_df = new_df.groupBy('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'H', 'K', 'L', 'Cost1','Cost2','Cost3','Cost4','Cost5')

new_df = new_df.agg({'Cost1':sum, 'Cost2':sum, 'Cost3':sum,'Cost4':sum, 'Cost5':sum})
但我无法使用以下语法在Pyspark中执行相同的操作:

new_df = new_df.groupBy('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'H', 'K', 'L', 'Cost1','Cost2','Cost3','Cost4','Cost5').agg(F.sum(ost1','Cost2','Cost3','Cost4','Cost5'))
错误:

AttributeError: 'GroupedData' object has no attribute 'groupBy'

您在这里输入了一个错误。
(ost1'),
。您忘记了
'C
。错误与代码中的另一个问题有关。您可能会像这样调用groupBy()两次:
groupBy(“a”).groupBy(“B”)
。您不能这样做。您应该在groupBy()之后从GrouppedData对象调用一个聚合函数.我想,你需要这些代码

new_df =  df.groupBy("A", "B").sum("Cost1", "Cost2")
new_df.show()


 

“我无法执行”你是什么意思?你应该删除collect@maximeG:谢谢,我更新了我得到的错误。你应该显示一个新的_df是如何创建的