Scala 如何"；密集的；Spark中的数据帧_Scala_Apache Spark_Apache Spark Sql

Scala 如何"；密集的；Spark中的数据帧

scala apache-spark

Scala 如何"；密集的；Spark中的数据帧,scala,apache-spark,apache-spark-sql,Scala,Apache Spark,Apache Spark Sql,我有一个数据框，看起来像： item\u id week\u id销售金额 1 1 10 1 2 12 1 3 15 2 1 4 2 2 7 2 3 9 我想将此数据帧转换为新的数据帧，如下所示： item\u id周\u 1周\u 2周\u 3 1 10

我有一个数据框，看起来像：

item\u id week\u id销售金额
1           1         10
1           2         12
1           3         15
2           1         4
2           2         7
2           3         9

我想将此数据帧转换为新的数据帧，如下所示：

item\u id周\u 1周\u 2周\u 3
1          10          12         15
2          4            7          9

这可以在R中轻松完成，但我不知道如何使用Spark API和Scala来完成。

您可以使用

groupBy.pivot

然后聚合sale_amount列，在这种情况下，如果每个组合中不超过一行，您可以从item和week的每个组合ID中获取第一个值：

df.groupBy("item_id").pivot("week_id").agg(first("sale_amount")).show
+-------+---+---+---+
|item_id|  1|  2|  3|
+-------+---+---+---+
|      1| 10| 12| 15|
|      2|  4|  7|  9|
+-------+---+---+---+

如果

item\u id

和

week\u id

的每个组合有多行，则可以使用其他聚合函数，例如：

df.groupBy("item_id").pivot("week_id").agg(sum("sale_amount")).show
+-------+---+---+---+
|item_id|  1|  2|  3|
+-------+---+---+---+
|      1| 10| 12| 15|
|      2|  4|  7|  9|
+-------+---+---+---+

要获得正确的列名，可以在旋转前转换

week\u id

列：

import org.apache.spark.sql.functions._

(df.withColumn("week_id", concat(lit("week_"), df("week_id"))).
    groupBy("item_id").pivot("week_id").agg(first("sale_amount")).show)

+-------+------+------+------+
|item_id|week_1|week_2|week_3|
+-------+------+------+------+
|      1|    10|    12|    15|
|      2|     4|     7|     9|
+-------+------+------+------+

枢轴是你的朋友！；）谢谢，如果某些项目id没有值“week\u id”，如何自动填充“0”？您可以使用

na.fill（0）

用0填充缺少的值<代码>df.带列（“周id”）、concat（lit（“周id”）、df（“周id”））.groupBy（“项目id”）.pivot（“周id”）.agg（第一个（“销售金额”））.na.填充（0.show）