Scala 在pyspark中执行算术运算后添加列_Scala_Pyspark_Pyspark Sql

Scala 在pyspark中执行算术运算后添加列

scala pyspark

Scala 在pyspark中执行算术运算后添加列,scala,pyspark,pyspark-sql,Scala,Pyspark,Pyspark Sql,我实际上是pyspark的新手，我正试图用它来做一些数据操作。我有一个如下示例所示的数据帧： Trxn Cust_ID Group 3370 A 1 8809 C 2 3525 B 3 8260 A 3 6349 B 3 3359 C 3 3701 NULL 3 5572 NULL 2 2580 A 1 在此DF中，Trxn是唯一的，cust\u id可以重复，并且每个cust\

我实际上是pyspark的新手，我正试图用它来做一些数据操作。我有一个如下示例所示的数据帧：

Trxn Cust_ID Group
3370    A     1
8809    C     2
3525    B     3
8260    A     3
6349    B     3
3359    C     3
3701    NULL  3
5572    NULL  2
2580    A     1

在此DF中，Trxn是唯一的，

cust\u id

可以重复，并且每个

cust\u id

都属于某个组。我需要一个带有新组列名的最终数据帧，如

数组（组1、组2..等等）

，其中我有属于每个组的

客户id的计数。以下是输出示例：
Trxn Cust_ID Group  Group_1 Group_2 Group_3
3370   A       1      2       0       1
8809   C       2      0       1       1
3525   B       3      0       0       2
8260   A       3      2       0       1
6349   B       3      0       0       2
3359   C       3      0       1       1
3701   NULL    3      0       1       1
5572   NULL    2      0       1       1
2580   A       1      2       0       1

有人能告诉我如何在pyspark中获得精确的输出吗？如果您有任何帮助或提示，我们将不胜感激。您似乎正在尝试在这里使用pivot。
似乎您正在尝试在此处执行pivot。