Arrays 如何在RDD分区内创建[key,value]对
我遇到了一个关于map in map的问题,我搜索了很多问题,所有的答案都是“不能在RDD内创建RDD”,我需要在RDD分区内创建[key,value]对,下面是我的问题,例如: 一个RDD有很多分区,其中一个是Arrays 如何在RDD分区内创建[key,value]对,arrays,scala,apache-spark,Arrays,Scala,Apache Spark,我遇到了一个关于map in map的问题,我搜索了很多问题,所有的答案都是“不能在RDD内创建RDD”,我需要在RDD分区内创建[key,value]对,下面是我的问题,例如: 一个RDD有很多分区,其中一个是[1=>(2,11,3333,3222)],对于这个分区,我需要输出[2=>11],[3=>(333222)],我应该怎么做 我想到 RDD.map{case(key,value)=>value.map(value(1)=>value(2)).groupByKey()}.groupByK
[1=>(2,11,3333,3222)]
,对于这个分区,我需要输出[2=>11],[3=>(333222)]
,我应该怎么做
我想到
RDD.map{case(key,value)=>value.map(value(1)=>value(2)).groupByKey()}.groupByKey()
但我不知道它是否有效
谢谢
reduceByKey
应该适合你。查看一些示例输入和预期输出将帮助其他人帮助您找到解决方案。