Python 如何将list的值传递给pypsark中的GroupBy子句
我有以下数据帧。 如果我想按部门分组,我使用Python 如何将list的值传递给pypsark中的GroupBy子句,python,dataframe,pyspark,apache-spark-sql,Python,Dataframe,Pyspark,Apache Spark Sql,我有以下数据帧。 如果我想按部门分组,我使用df.groupBy(func.lit(list1[0]))。如何在不显式指定的情况下传递groupBy中列表的所有值。我尝试使用df.groupBy(func.array([func.lit(x)表示列表1中的x])——但它提供了最高级别(dept)的聚合 输出 +----+---+---------------+ |dept|loc|sum(unit1Count)| +----+---+---------------+ |D2 |L1 |15
df.groupBy(func.lit(list1[0]))
。如何在不显式指定的情况下传递groupBy
中列表的所有值。我尝试使用df.groupBy(func.array([func.lit(x)表示列表1中的x])
——但它提供了最高级别(dept)的聚合
输出
+----+---+---------------+
|dept|loc|sum(unit1Count)|
+----+---+---------------+
|D2 |L1 |15 |
|D3 |L3 |12 |
|D1 |L3 |11 |
|D2 |L3 |30 |
|D2 |L2 |11 |
|D1 |L2 |13 |
|D1 |L1 |10 |
+----+---+---------------+
+----------------+---------------+
|array(dept, loc)|sum(unit1Count)|
+----------------+---------------+
|[dept, loc] |102 |
+----------------+---------------+
不需要照明。只需执行df.groupBy(列表1)?
+----+---+---------------+
|dept|loc|sum(unit1Count)|
+----+---+---------------+
|D2 |L1 |15 |
|D3 |L3 |12 |
|D1 |L3 |11 |
|D2 |L3 |30 |
|D2 |L2 |11 |
|D1 |L2 |13 |
|D1 |L1 |10 |
+----+---+---------------+
+----------------+---------------+
|array(dept, loc)|sum(unit1Count)|
+----------------+---------------+
|[dept, loc] |102 |
+----------------+---------------+