在dataframe spark scala的新列中显示多条记录的单行,记录总数作为计数
我有如下数据 我想总结如下: 我想获取name的第一个时间戳,并为name列添加总计数 我不知道如何在Spark scala代码中实现这一点 您能告诉我如何在spark scala数据帧中处理这种情况吗在dataframe spark scala的新列中显示多条记录的单行,记录总数作为计数,scala,apache-spark,Scala,Apache Spark,我有如下数据 我想总结如下: 我想获取name的第一个时间戳,并为name列添加总计数 我不知道如何在Spark scala代码中实现这一点 您能告诉我如何在spark scala数据帧中处理这种情况吗 谢谢,BabSpark SQL具有可用于实现此目的的函数 import org.apache.spark.sql.functions.{first, col} 在Scala中,您可以执行以下操作: df.groupBy(col("Name")) .agg(first("ID").ali
谢谢,BabSpark SQL具有可用于实现此目的的函数
import org.apache.spark.sql.functions.{first, col}
在Scala中,您可以执行以下操作:
df.groupBy(col("Name"))
.agg(first("ID").alias("ID"),
first(col("Timestamp")).alias("Timestamp"),
count(col("Name")).alias("Count")
)
如果您想在ID和名称上分组,也可以将其写入
df.groupBy(col("ID"), col("Name"))
.agg(first(col("Timestamp")).alias("Timestamp"),
count(col("Name")).alias("Count")
)
您好@Bad,欢迎来到StackOverflow,您可以查看以改进此问题和未来的问题。特别是你应该提供一些和/或一些代码,以证明你已经尝试自己解决问题。谢谢你提供的信息,我会尽力提供更多细节。谢谢你Sailesh。这就是我要找的,谢谢你的快速回复。