Sql Pyspark Pivot在一列中复制值,以获取以下行的所有唯一值
我创建了一个包含4个表的联接,现在有了下表 正如您所看到的,column=Sql Pyspark Pivot在一列中复制值,以获取以下行的所有唯一值,sql,apache-spark,pyspark,apache-spark-sql,Sql,Apache Spark,Pyspark,Apache Spark Sql,我创建了一个包含4个表的联接,现在有了下表 正如您所看到的,column=tconst具有重复的值,因为在第1、2、3、4列中有一些唯一的值 我想现在就得到这个结果,(删除重复的tconst值,并通过增加列列出重复的tconst值中的所有唯一值) 您能帮助我如何得到这个结果吗?(四个数据库的连接中没有任何内容可以更改,现在需要创建一个获得这个结果的逻辑,并且顺序并不重要,只要我有唯一的值,请帮助)。从pyspark.sql导入函数作为f df=dataframe.groupBy('tcons
tconst
具有重复的值,因为在第1、2、3、4列中有一些唯一的值
我想现在就得到这个结果,(删除重复的tconst
值,并通过增加列列出重复的tconst
值中的所有唯一值)
您能帮助我如何得到这个结果吗?(四个数据库的连接中没有任何内容可以更改,现在需要创建一个获得这个结果的逻辑,并且顺序并不重要,只要我有唯一的值,请帮助)。从pyspark.sql导入函数作为f
df=dataframe.groupBy('tconst').agg(f.concat(f.collect_list('one'))