Python 如何将list的值传递给pypsark中的GroupBy子句_Python_Dataframe_Pyspark_Apache Spark Sql

Python 如何将list的值传递给pypsark中的GroupBy子句

python dataframe pyspark

Python 如何将list的值传递给pypsark中的GroupBy子句,python,dataframe,pyspark,apache-spark-sql,Python,Dataframe,Pyspark,Apache Spark Sql,我有以下数据帧。如果我想按部门分组，我使用df.groupBy（func.lit（list1[0]））。如何在不显式指定的情况下传递groupBy中列表的所有值。我尝试使用df.groupBy（func.array（[func.lit（x）表示列表1中的x]）——但它提供了最高级别（dept）的聚合输出 +----+---+---------------+ |dept|loc|sum(unit1Count)| +----+---+---------------+ |D2 |L1 |15

我有以下数据帧。如果我想按部门分组，我使用

df.groupBy（func.lit（list1[0]））

。如何在不显式指定的情况下传递

groupBy

中列表的所有值。我尝试使用

df.groupBy（func.array（[func.lit（x）表示列表1中的x]）

——但它提供了最高级别（dept）的聚合

输出

+----+---+---------------+
|dept|loc|sum(unit1Count)|
+----+---+---------------+
|D2  |L1 |15             |
|D3  |L3 |12             |
|D1  |L3 |11             |
|D2  |L3 |30             |
|D2  |L2 |11             |
|D1  |L2 |13             |
|D1  |L1 |10             |
+----+---+---------------+

+----------------+---------------+
|array(dept, loc)|sum(unit1Count)|
+----------------+---------------+
|[dept, loc]     |102            |
+----------------+---------------+

不需要照明。只需执行df.groupBy（列表1）？

+----+---+---------------+
|dept|loc|sum(unit1Count)|
+----+---+---------------+
|D2  |L1 |15             |
|D3  |L3 |12             |
|D1  |L3 |11             |
|D2  |L3 |30             |
|D2  |L2 |11             |
|D1  |L2 |13             |
|D1  |L1 |10             |
+----+---+---------------+

+----------------+---------------+
|array(dept, loc)|sum(unit1Count)|
+----------------+---------------+
|[dept, loc]     |102            |
+----------------+---------------+