ApacheSparkJavaRDD按2个关键字段分组,并按设置获得第三个字段输出
我正在使用Java8进行spark工作 我有下面的输入数据集,我需要将其格式化为输出数据集 输入数据集数据量大:ApacheSparkJavaRDD按2个关键字段分组,并按设置获得第三个字段输出,java,apache-spark,rdd,Java,Apache Spark,Rdd,我正在使用Java8进行spark工作 我有下面的输入数据集,我需要将其格式化为输出数据集 输入数据集数据量大: region | keyword | id | name | --------------------------------------| REGION1 | milk | 200 | abc | REGION2 | lemon | 100 | xy | REGION1 | milk | 100 | z
region | keyword | id | name |
--------------------------------------|
REGION1 | milk | 200 | abc |
REGION2 | lemon | 100 | xy |
REGION1 | milk | 100 | z |
输出数据集:
region | keyword | id (type: set)|
--------------------------------------|
REGION1 | milk | {200, 100} |
REGION2 | lemon | {100} |
如何在JavaRDD中实现这一点