ApacheSparkJavaRDD按2个关键字段分组,并按设置获得第三个字段输出

ApacheSparkJavaRDD按2个关键字段分组,并按设置获得第三个字段输出,java,apache-spark,rdd,Java,Apache Spark,Rdd,我正在使用Java8进行spark工作 我有下面的输入数据集,我需要将其格式化为输出数据集 输入数据集数据量大: region | keyword | id | name | --------------------------------------| REGION1 | milk | 200 | abc | REGION2 | lemon | 100 | xy | REGION1 | milk | 100 | z

我正在使用Java8进行spark工作

我有下面的输入数据集,我需要将其格式化为输出数据集

输入数据集数据量大:

region   |  keyword   | id    | name  |
--------------------------------------|
REGION1  |  milk      | 200   | abc   |
REGION2  |  lemon     | 100   | xy    |
REGION1  |  milk      | 100   | z     |
输出数据集:

region   |  keyword   | id (type: set)| 
--------------------------------------|
REGION1  |  milk      | {200, 100}    |
REGION2  |  lemon     | {100}         |
如何在JavaRDD中实现这一点