Java 在Spark中使用多条分组线

Java 在Spark中使用多条分组线,java,apache-spark,rdd,Java,Apache Spark,Rdd,我有以下几行数据;管道(“|”)分隔的CSV数据: id|name|address|updated_date 1|Binita|Satdobato|20151212 1|Binita|Kalimati|20161212 2|Rohita|Kalanki|20151212 2|Rohita|Dharan|20141212 现在我需要按id和名称分组,并用最新更新的日期更新地址。预期产出如下: id|name|address|updated_date 1|Binita|Kalimati|20151

我有以下几行数据;管道(“|”)分隔的CSV数据:

id|name|address|updated_date
1|Binita|Satdobato|20151212
1|Binita|Kalimati|20161212
2|Rohita|Kalanki|20151212
2|Rohita|Dharan|20141212
现在我需要按id和名称分组,并用最新更新的日期更新地址。预期产出如下:

id|name|address|updated_date
1|Binita|Kalimati|20151212
1|Binita|Kalimati|20161212
2|Rohita|Kalanki|20151212
2|Rohita|Kalanki|20141212

现在,我如何使用JavaRDD中的Spark实现输出。

您尝试过什么吗?您尝试过什么吗?