Dataframe 如何将PySpark中的列分组到列表中?

Dataframe 如何将PySpark中的列分组到列表中?,dataframe,pyspark,Dataframe,Pyspark,假设我有一个数据帧: product_id customer 1 1 1 2 1 4 2 1 2 2 我想将上述数据帧分组为: product_id customers 1 [1,2,4] 2 [1,2] 我怎样才能用PySpark做到这一点呢?希望这有帮助 import pyspark.sql.functions as f df.groupby("product_id").agg(f.collect_list("customer").alias("customers")).show()

假设我有一个数据帧:

product_id  customer
1 1
1 2
1 4
2 1
2 2
我想将上述数据帧分组为:

product_id customers
1 [1,2,4]
2 [1,2]
我怎样才能用PySpark做到这一点呢?

希望这有帮助

import pyspark.sql.functions as f 
df.groupby("product_id").agg(f.collect_list("customer").alias("customers")).show()

编辑注释-在代码中添加了导入语句)

希望这有帮助

import pyspark.sql.functions as f 
df.groupby("product_id").agg(f.collect_list("customer").alias("customers")).show()


编辑注释-在代码中添加了导入语句)

谢谢,但是什么是
f
?是否可以进行行串联?@NikhilBaby您能详细说明您的要求吗?也许你应该创建一个新问题并将链接粘贴到这里。谢谢,但是什么是
f
?是否可以进行行串联?@NikhilBaby你能详细说明你的要求吗?也许你应该创建一个新问题并将链接粘贴到这里。