Dataframe groupby和聚合的Pyspark等价物_Dataframe_Apache Spark_Pyspark

Dataframe groupby和聚合的Pyspark等价物

dataframe apache-spark pyspark

Dataframe groupby和聚合的Pyspark等价物,dataframe,apache-spark,pyspark,Dataframe,Apache Spark,Pyspark,我有一个pyspark数据帧，我正在尝试对其执行groupby和聚合我在熊猫及其工作区执行以下操作： new_df = new_df.groupBy('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'H', 'K', 'L', 'Cost1','Cost2','Cost3','Cost4','Cost5') new_df = new_df.agg({'Cost1':sum, 'Cost2':sum, 'Cost3':sum,'Cost4':

我有一个pyspark数据帧，我正在尝试对其执行groupby和聚合

我在熊猫及其工作区执行以下操作：

new_df = new_df.groupBy('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'H', 'K', 'L', 'Cost1','Cost2','Cost3','Cost4','Cost5')

new_df = new_df.agg({'Cost1':sum, 'Cost2':sum, 'Cost3':sum,'Cost4':sum, 'Cost5':sum})

但我无法使用以下语法在Pyspark中执行相同的操作：

new_df = new_df.groupBy('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'H', 'K', 'L', 'Cost1','Cost2','Cost3','Cost4','Cost5').agg(F.sum(ost1','Cost2','Cost3','Cost4','Cost5'))

错误：

AttributeError: 'GroupedData' object has no attribute 'groupBy'

您在这里输入了一个错误。

（ost1'），

。您忘记了

'C

。错误与代码中的另一个问题有关。您可能会像这样调用groupBy（）两次：

groupBy（“a”）.groupBy（“B”）

。您不能这样做。您应该在groupBy（）之后从GrouppedData对象调用一个聚合函数.我想，你需要这些代码

new_df =  df.groupBy("A", "B").sum("Cost1", "Cost2")
new_df.show()

“我无法执行”你是什么意思？你应该删除collect@maximeG：谢谢，我更新了我得到的错误。你应该显示一个新的_df是如何创建的