PySpark数据帧转换_Pyspark_Apache Spark Sql_Pyspark Sql

PySpark数据帧转换

pyspark

PySpark数据帧转换,pyspark,apache-spark-sql,pyspark-sql,Pyspark,Apache Spark Sql,Pyspark Sql,我有以下数据帧： import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext sc = SparkContext('local') df_pd = pd.DataFrame([[11, 'abc', 1, 114], [11, 'abc', 2, 104], [11, 'def', 9, 1

我有以下数据帧：

import pandas as pd
from pyspark import SparkContext
from pyspark.sql import SQLContext

sc = SparkContext('local')

df_pd = pd.DataFrame([[11, 'abc', 1, 114],
                      [11, 'abc', 2, 104],
                      [11, 'def', 9, 113],
                      [12, 'abc', 1,  14],
                      [12, 'def', 3, 110],
                      [14, 'abc', 1, 194],
                      [14, 'abc', 2, 164],
                      [14, 'abc', 3, 104],],
                      columns=['id', 'str', 'num', 'val'])

sql_sc = SQLContext(sc)

df_spark = sql_sc.createDataFrame(df_pd)
df_spark.show()

其中打印：

+---+---+---+---+
| id|str|num|val|
+---+---+---+---+
| 11|abc|  1|114|
| 11|abc|  2|104|
| 11|def|  9|113|
| 12|abc|  1| 14|
| 12|def|  3|110|
| 14|abc|  1|194|
| 14|abc|  2|164|
| 14|abc|  3|104|
+---+---+---+---+

我的目标是将其转变为：

+---+-----+-----+-----+-----+-----+
| id|abc_1|abc_2|abc_3|def_3|def_9|
+---+-----+-----+-----+-----+-----+
| 11|  114|  104|  NaN|  NaN|  113|
| 12|   14|  NaN|  NaN|  110|  NaN|
| 14|  194|  164|  104|  NaN|  NaN|
+---+-----+-----+-----+-----+-----+

（每个

id

一行，列名称为

str+''.+str（val）

，生成的表中填充了相应的

val

s，所有其他条目为

NaN

）

我将如何实现这一点？我从

column = df_spark.select(concat(col("str"), lit("_"), col("num")))

通过它我可以得到列名

df_spark.select('id').distinct()

给出不同的

id

但我无法构建或填充新的数据帧

编辑：与可能的重复不同的是，我不知道pivot功能，而另一个问题是在pyspark中哪里可以找到函数“pivot”。我不知道这是否是重复的，但我没有找到另一个问题，因为我不知道要查找什么。

我不确定您希望对val字段使用哪种聚合。我使用sum，这是解决方案

import pyspark.sql.functions as F

df_spark = df_spark.withColumn('col', F.concat(F.col("str"), F.lit("_"), F.col("num")))

df_spark.groupBy('id').pivot('col').agg({'val':'sum'}).orderBy('id').show()

+---+-----+-----+-----+-----+-----+
| id|abc_1|abc_2|abc_3|def_3|def_9|
+---+-----+-----+-----+-----+-----+
| 11|  114|  104| null| null|  113|
| 12|   14| null| null|  110| null|
| 14|  194|  164|  104| null| null|
+---+-----+-----+-----+-----+-----+

非常感谢，我将尝试它（不应该有两个具有相同id的条目，str和num）。可能重复的