Apache spark 在spark中,通过组合其他对象来构建对象RDD的最佳方法是什么?
例如,我的RDD为(RoomId(key),RoomData对象(value)),RDD为(RoomId(key),StudentData对象(value)) 我希望最终得到一个对象(值)的RoomId(key)RDD,该对象(值)包含房间和房间中的学生数据 在mapreduce中,我将:Apache spark 在spark中,通过组合其他对象来构建对象RDD的最佳方法是什么?,apache-spark,rdd,Apache Spark,Rdd,例如,我的RDD为(RoomId(key),RoomData对象(value)),RDD为(RoomId(key),StudentData对象(value)) 我希望最终得到一个对象(值)的RoomId(key)RDD,该对象(值)包含房间和房间中的学生数据 在mapreduce中,我将: 提取房间和学生的所有数据 使用对象所属的RoomId和“a”或“a”的组合键 “b”(RoomId+a)用于RoomData对象和(RoomId+b)StudentData 减速器中的对象 我可以依靠订单,
- 提取房间和学生的所有数据
- 使用对象所属的RoomId和“a”或“a”的组合键 “b”(RoomId+a)用于RoomData对象和(RoomId+b)StudentData 减速器中的对象
- 我可以依靠订单,将第一个对象作为RoomData
对象,并添加其余的值,如
学生,使用RoomData.addStudent()将其添加到该RoomData对象 方法 - 然后输出最终的RoomData对象
学生-Bob Smith请分享示例数据和预期结果output@mtoto好了!你能用
sc.parallelize()重写它吗?