Scala 如何";密集的;Spark中的数据帧
我有一个数据框,看起来像:Scala 如何";密集的;Spark中的数据帧,scala,apache-spark,apache-spark-sql,Scala,Apache Spark,Apache Spark Sql,我有一个数据框,看起来像: item\u id week\u id销售金额 1 1 10 1 2 12 1 3 15 2 1 4 2 2 7 2 3 9 我想将此数据帧转换为新的数据帧,如下所示: item\u id周\u 1周\u 2周\u 3 1 10
item\u id week\u id销售金额
1 1 10
1 2 12
1 3 15
2 1 4
2 2 7
2 3 9
我想将此数据帧转换为新的数据帧,如下所示:
item\u id周\u 1周\u 2周\u 3
1 10 12 15
2 4 7 9
这可以在R中轻松完成,但我不知道如何使用Spark API和Scala来完成。您可以使用
groupBy.pivot
然后聚合sale_amount列,在这种情况下,如果每个组合中不超过一行,您可以从item和week的每个组合ID中获取第一个值:
df.groupBy("item_id").pivot("week_id").agg(first("sale_amount")).show
+-------+---+---+---+
|item_id| 1| 2| 3|
+-------+---+---+---+
| 1| 10| 12| 15|
| 2| 4| 7| 9|
+-------+---+---+---+
如果item\u id
和week\u id
的每个组合有多行,则可以使用其他聚合函数,例如:
df.groupBy("item_id").pivot("week_id").agg(sum("sale_amount")).show
+-------+---+---+---+
|item_id| 1| 2| 3|
+-------+---+---+---+
| 1| 10| 12| 15|
| 2| 4| 7| 9|
+-------+---+---+---+
要获得正确的列名,可以在旋转前转换week\u id
列:
import org.apache.spark.sql.functions._
(df.withColumn("week_id", concat(lit("week_"), df("week_id"))).
groupBy("item_id").pivot("week_id").agg(first("sale_amount")).show)
+-------+------+------+------+
|item_id|week_1|week_2|week_3|
+-------+------+------+------+
| 1| 10| 12| 15|
| 2| 4| 7| 9|
+-------+------+------+------+
枢轴是你的朋友!;)谢谢,如果某些项目id没有值“week\u id”,如何自动填充“0”?您可以使用
na.fill(0)
用0填充缺少的值<代码>df.带列(“周id”)、concat(lit(“周id”)、df(“周id”)).groupBy(“项目id”).pivot(“周id”).agg(第一个(“销售金额”)).na.填充(0.show)