在spark java中过滤和分组多个数据集
我对spark很陌生。以下是我要达到的要求在spark java中过滤和分组多个数据集,java,apache-spark,dataset,apache-spark-sql,rdd,Java,Apache Spark,Dataset,Apache Spark Sql,Rdd,我对spark很陌生。以下是我要达到的要求 1st RDD empno first-name last-name 0 fname lname 1 fname1 lname1 2nd rdd empno dept-no dept-code 0 1 a 0 1 b 1 1 a 1 2 a 3rd rdd empno history-no addres
1st RDD
empno first-name last-name
0 fname lname
1 fname1 lname1
2nd rdd
empno dept-no dept-code
0 1 a
0 1 b
1 1 a
1 2 a
3rd rdd
empno history-no address
0 1 xyz
0 2 abc
1 1 123
1 2 456
1 3 a12
我必须为每个员工生成一个包含所有RDD的文件,平均emp计数为200k
期望输出:
seg-start emp-0
seg-emp 0-fname-lname
seg-dept 0-1-a
seg-dept 0-1-b
seg-his 0-1-xyz
seg-his 0-2-abc
seg-end emp-0
seg-start emp-1
......
seg-end emp-1
如何通过结合RDD实现这一点?请注意,数据并非如图所示直接写入,我们正在将数据转换为业务有效格式(例如:-e0xx5fname5lname为0-fname-lname),因此需要专家的帮助,因为当前批处理程序运行数小时来写入数据,考虑使用spark来高效处理