在spark java中过滤和分组多个数据集_Java_Apache Spark_Dataset_Apache Spark Sql_Rdd

在spark java中过滤和分组多个数据集

java apache-spark

在spark java中过滤和分组多个数据集,java,apache-spark,dataset,apache-spark-sql,rdd,Java,Apache Spark,Dataset,Apache Spark Sql,Rdd,我对spark很陌生。以下是我要达到的要求 1st RDD empno first-name last-name 0 fname lname 1 fname1 lname1 2nd rdd empno dept-no dept-code 0 1 a 0 1 b 1 1 a 1 2 a 3rd rdd empno history-no addres

我对spark很陌生。以下是我要达到的要求

1st RDD

empno first-name last-name
0        fname     lname
1        fname1    lname1

2nd rdd
empno dept-no dept-code
0       1        a
0       1        b
1       1        a
1       2        a

3rd rdd
empno history-no address
0       1            xyz
0       2            abc
1       1            123
1       2            456
1       3            a12

我必须为每个员工生成一个包含所有RDD的文件，平均emp计数为200k

期望输出：

seg-start emp-0
seg-emp 0-fname-lname
seg-dept 0-1-a
seg-dept 0-1-b
seg-his 0-1-xyz
seg-his 0-2-abc
seg-end emp-0
seg-start emp-1
......
seg-end emp-1

如何通过结合RDD实现这一点？请注意，数据并非如图所示直接写入，我们正在将数据转换为业务有效格式（例如：-e0xx5fname5lname为0-fname-lname），因此需要专家的帮助，因为当前批处理程序运行数小时来写入数据，考虑使用spark来高效处理