Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/scala/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/assembly/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 在pyspark中执行算术运算后添加列_Scala_Pyspark_Pyspark Sql - Fatal编程技术网

Scala 在pyspark中执行算术运算后添加列

Scala 在pyspark中执行算术运算后添加列,scala,pyspark,pyspark-sql,Scala,Pyspark,Pyspark Sql,我实际上是pyspark的新手,我正试图用它来做一些数据操作。 我有一个如下示例所示的数据帧: Trxn Cust_ID Group 3370 A 1 8809 C 2 3525 B 3 8260 A 3 6349 B 3 3359 C 3 3701 NULL 3 5572 NULL 2 2580 A 1 在此DF中,Trxn是唯一的,cust\u id可以重复,并且每个cust\

我实际上是pyspark的新手,我正试图用它来做一些数据操作。 我有一个如下示例所示的数据帧:

Trxn Cust_ID Group
3370    A     1
8809    C     2
3525    B     3
8260    A     3
6349    B     3
3359    C     3
3701    NULL  3
5572    NULL  2
2580    A     1
在此DF中,Trxn是唯一的,
cust\u id
可以重复,并且每个
cust\u id
都属于某个组。我需要一个带有新组列名的最终数据帧,如
数组(组1、组2..等等)
,其中我有属于每个组的
客户id的计数。以下是输出示例:

Trxn Cust_ID Group  Group_1 Group_2 Group_3
3370   A       1      2       0       1
8809   C       2      0       1       1
3525   B       3      0       0       2
8260   A       3      2       0       1
6349   B       3      0       0       2
3359   C       3      0       1       1
3701   NULL    3      0       1       1
5572   NULL    2      0       1       1
2580   A       1      2       0       1

有人能告诉我如何在pyspark中获得精确的输出吗?如果您有任何帮助或提示,我们将不胜感激。

您似乎正在尝试在这里使用pivot。

似乎您正在尝试在此处执行pivot。