Java spark数据集分组方式和总和

Java spark数据集分组方式和总和,java,apache-spark,dataframe,dataset,Java,Apache Spark,Dataframe,Dataset,我使用Spark 1.6.1和Java作为编程语言。 以下代码在使用数据帧时运行良好: 但是,它不使用数据集,您知道如何在Java/Spark中使用数据集吗 干杯 它不起作用,因为在groupBy之后,我得到了一个GroupedDataset对象,当我尝试应用函数agg时,它需要typedColumn而不是column 啊,由于Spark 2.x中数据集和数据帧的合并,在这方面有一些混乱,其中有一个groupBy可以处理关系列,还有groupByKey可以处理类型列。因此,假设您使用的是1.6中

我使用Spark 1.6.1和Java作为编程语言。 以下代码在使用数据帧时运行良好:

但是,它不使用数据集,您知道如何在Java/Spark中使用数据集吗

干杯


它不起作用,因为在groupBy之后,我得到了一个GroupedDataset对象,当我尝试应用函数agg时,它需要typedColumn而不是column

啊,由于Spark 2.x中数据集和数据帧的合并,在这方面有一些混乱,其中有一个
groupBy
可以处理关系列,还有
groupByKey
可以处理类型列。因此,假设您使用的是1.6中的显式数据集,那么解决方案是通过
.as
方法对列进行类型化

sum("CURRENT_MONTH").as[Int]

你能发布不起作用的代码吗?这应该是可行的,所以这取决于你是如何做到这一点的。在我的情况下,它也有效。你能粘贴你的异常吗?你能详细说明“它不使用数据集”吗?您如何知道它在使用数据集时不起作用?什么样的输出让你这么认为?它不起作用,因为在groupBy之后,我得到了一个GroupedDataset对象,当我尝试应用函数agg时,它需要typedColumn而不是column。
sum("CURRENT_MONTH").as[Int]