Java spark数据集分组方式和总和_Java_Apache Spark_Dataframe_Dataset

Java spark数据集分组方式和总和

java apache-spark dataframe

Java spark数据集分组方式和总和,java,apache-spark,dataframe,dataset,Java,Apache Spark,Dataframe,Dataset,我使用Spark 1.6.1和Java作为编程语言。以下代码在使用数据帧时运行良好：但是，它不使用数据集，您知道如何在Java/Spark中使用数据集吗干杯它不起作用，因为在groupBy之后，我得到了一个GroupedDataset对象，当我尝试应用函数agg时，它需要typedColumn而不是column 啊，由于Spark 2.x中数据集和数据帧的合并，在这方面有一些混乱，其中有一个groupBy可以处理关系列，还有groupByKey可以处理类型列。因此，假设您使用的是1.6中

我使用Spark 1.6.1和Java作为编程语言。以下代码在使用数据帧时运行良好：

但是，它不使用数据集，您知道如何在Java/Spark中使用数据集吗

干杯

它不起作用，因为在groupBy之后，我得到了一个GroupedDataset对象，当我尝试应用函数agg时，它需要typedColumn而不是column

啊，由于Spark 2.x中数据集和数据帧的合并，在这方面有一些混乱，其中有一个

groupBy

可以处理关系列，还有

groupByKey

可以处理类型列。因此，假设您使用的是1.6中的显式数据集，那么解决方案是通过

.as

方法对列进行类型化

sum("CURRENT_MONTH").as[Int]

你能发布不起作用的代码吗？这应该是可行的，所以这取决于你是如何做到这一点的。在我的情况下，它也有效。你能粘贴你的异常吗？你能详细说明“它不使用数据集”吗？您如何知道它在使用数据集时不起作用？什么样的输出让你这么认为？它不起作用，因为在groupBy之后，我得到了一个GroupedDataset对象，当我尝试应用函数agg时，它需要typedColumn而不是column。

sum("CURRENT_MONTH").as[Int]