Pyspark dataframe:交叉表或其他使行标签成为新列的方法

Pyspark dataframe:交叉表或其他使行标签成为新列的方法,dataframe,pyspark,crosstab,Dataframe,Pyspark,Crosstab,我有一个pyspark数据帧,如图所示: 也就是说,我有四列:年份、单词、计数、频率。这一年是从2000年到2015年 我想对(pyspark)数据帧进行一些操作,以便得到如下图片格式的结果: 新的数据帧列应该是:word、frequency_2000、frequency_2001、frequency_2002、…、frequency_2015 每年每个单词的频率来自上一个数据帧 有没有关于如何编写高效代码的建议 另外,如果您能提供更多信息,请重命名标题 经过研究,我找到了一个解决方案:

我有一个pyspark数据帧,如图所示:

也就是说,我有四列:年份、单词、计数、频率。这一年是从2000年到2015年

我想对(pyspark)数据帧进行一些操作,以便得到如下图片格式的结果:

新的数据帧列应该是:word、frequency_2000、frequency_2001、frequency_2002、…、frequency_2015

每年每个单词的频率来自上一个数据帧

有没有关于如何编写高效代码的建议


另外,如果您能提供更多信息,请重命名标题

经过研究,我找到了一个解决方案: