在dataframe spark scala的新列中显示多条记录的单行，记录总数作为计数_Scala_Apache Spark

在dataframe spark scala的新列中显示多条记录的单行，记录总数作为计数

scala apache-spark

在dataframe spark scala的新列中显示多条记录的单行，记录总数作为计数,scala,apache-spark,Scala,Apache Spark,我有如下数据我想总结如下：我想获取name的第一个时间戳，并为name列添加总计数我不知道如何在Spark scala代码中实现这一点您能告诉我如何在spark scala数据帧中处理这种情况吗谢谢，BabSpark SQL具有可用于实现此目的的函数 import org.apache.spark.sql.functions.{first, col} 在Scala中，您可以执行以下操作： df.groupBy(col("Name")) .agg(first("ID").ali

我有如下数据

我想总结如下：

我想获取name的第一个时间戳，并为name列添加总计数

我不知道如何在Spark scala代码中实现这一点

您能告诉我如何在spark scala数据帧中处理这种情况吗

谢谢，Bab

Spark SQL具有可用于实现此目的的函数

import org.apache.spark.sql.functions.{first, col}

在Scala中，您可以执行以下操作：

df.groupBy(col("Name"))
  .agg(first("ID").alias("ID"),
       first(col("Timestamp")).alias("Timestamp"),
       count(col("Name")).alias("Count")
  )

如果您想在ID和名称上分组，也可以将其写入

df.groupBy(col("ID"), col("Name"))
  .agg(first(col("Timestamp")).alias("Timestamp"),
       count(col("Name")).alias("Count")
  )

您好@Bad，欢迎来到StackOverflow，您可以查看以改进此问题和未来的问题。特别是你应该提供一些和/或一些代码，以证明你已经尝试自己解决问题。谢谢你提供的信息，我会尽力提供更多细节。谢谢你Sailesh。这就是我要找的，谢谢你的快速回复。