Scala 在pyspark中执行算术运算后添加列
我实际上是pyspark的新手,我正试图用它来做一些数据操作。 我有一个如下示例所示的数据帧:Scala 在pyspark中执行算术运算后添加列,scala,pyspark,pyspark-sql,Scala,Pyspark,Pyspark Sql,我实际上是pyspark的新手,我正试图用它来做一些数据操作。 我有一个如下示例所示的数据帧: Trxn Cust_ID Group 3370 A 1 8809 C 2 3525 B 3 8260 A 3 6349 B 3 3359 C 3 3701 NULL 3 5572 NULL 2 2580 A 1 在此DF中,Trxn是唯一的,cust\u id可以重复,并且每个cust\
Trxn Cust_ID Group
3370 A 1
8809 C 2
3525 B 3
8260 A 3
6349 B 3
3359 C 3
3701 NULL 3
5572 NULL 2
2580 A 1
在此DF中,Trxn是唯一的,cust\u id
可以重复,并且每个cust\u id
都属于某个组。我需要一个带有新组列名的最终数据帧,如数组(组1、组2..等等)
,其中我有属于每个组的客户id的计数。以下是输出示例:
Trxn Cust_ID Group Group_1 Group_2 Group_3
3370 A 1 2 0 1
8809 C 2 0 1 1
3525 B 3 0 0 2
8260 A 3 2 0 1
6349 B 3 0 0 2
3359 C 3 0 1 1
3701 NULL 3 0 1 1
5572 NULL 2 0 1 1
2580 A 1 2 0 1
有人能告诉我如何在pyspark中获得精确的输出吗?如果您有任何帮助或提示,我们将不胜感激。您似乎正在尝试在这里使用pivot。
似乎您正在尝试在此处执行pivot。