列表中的Spark scala筛选器元组_Scala_Apache Spark_Rdd

列表中的Spark scala筛选器元组

scala apache-spark

列表中的Spark scala筛选器元组,scala,apache-spark,rdd,Scala,Apache Spark,Rdd,我有一个Rdd像下面 val m = sc.parallelize(Seq(("a",("x",1)), ("a",("y",2)), ("a",("z",2)), ("b",("x",1)),("b",("y",2)))) val b = m.groupByKey.mapValues( _.toList) 我使用下面的groupByKey转换了上面的Rdd val m = sc.parallelize(Seq(("a",("x",1)), ("a",("y",2)), ("a",("z",

我有一个Rdd像下面

val m = sc.parallelize(Seq(("a",("x",1)), ("a",("y",2)), ("a",("z",2)), ("b",("x",1)),("b",("y",2))))

val b = m.groupByKey.mapValues( _.toList)

我使用下面的groupByKey转换了上面的Rdd

val m = sc.parallelize(Seq(("a",("x",1)), ("a",("y",2)), ("a",("z",2)), ("b",("x",1)),("b",("y",2))))

val b = m.groupByKey.mapValues( _.toList)

结果:

(a,List((x,1), (y,2), (z,2)))
(b,List((x,1), (y,2)))

现在，我想过滤每个列表中具有最大值的元组因此，预期的结果将是

(a,List((y,2), (z,2)))
(b,List((y,2)))

考虑到给定的顺序是：

val m=Seq（（（“a”，“x”，1）），（“a”，“y”，2）），（“a”，“z”，2）），（“b”，“x”，1）），（“b”，“y”，2））

其结果如下：

r1:List[（String，Seq[（String，Int）]]=List（（b，List（（y，2）），（a，List（（y，2），（z，2）））

考虑到给定的序列是：

val m=Seq（（（“a”，“x”，1）），（“a”，“y”，2）），（“a”，“z”，2）），（“b”，“x”，1）），（“b”，“y”，2））

其结果如下：

r1:List[（String，Seq[（String，Int）]]=List（（b，List（（y，2）），（a，List（（y，2），（z，2）））