ApacheSparkJavaRDD按2个关键字段分组，并按设置获得第三个字段输出_Java_Apache Spark_Rdd

ApacheSparkJavaRDD按2个关键字段分组，并按设置获得第三个字段输出

java apache-spark

ApacheSparkJavaRDD按2个关键字段分组，并按设置获得第三个字段输出,java,apache-spark,rdd,Java,Apache Spark,Rdd,我正在使用Java8进行spark工作我有下面的输入数据集，我需要将其格式化为输出数据集输入数据集数据量大： region | keyword | id | name | --------------------------------------| REGION1 | milk | 200 | abc | REGION2 | lemon | 100 | xy | REGION1 | milk | 100 | z

我正在使用Java8进行spark工作

我有下面的输入数据集，我需要将其格式化为输出数据集

输入数据集数据量大：

region   |  keyword   | id    | name  |
--------------------------------------|
REGION1  |  milk      | 200   | abc   |
REGION2  |  lemon     | 100   | xy    |
REGION1  |  milk      | 100   | z     |

输出数据集：

region   |  keyword   | id (type: set)| 
--------------------------------------|
REGION1  |  milk      | {200, 100}    |
REGION2  |  lemon     | {100}         |

如何在JavaRDD中实现这一点