Scala 从spark-RDD中提取值_Scala_Hadoop_Apache Spark_Bigdata

Scala 从spark-RDD中提取值

scala hadoop apache-spark

Scala 从spark-RDD中提取值,scala,hadoop,apache-spark,bigdata,Scala,Hadoop,Apache Spark,Bigdata,我是新手，不知道从哪里开始。我有上面提到的rdd。你能帮我从上面的RDD中提取值吗我想提取这些值，并根据键在第3、第4和第5列中连接贴图感谢您的帮助您可以这样尝试一下： RDDData===RET ( 12345, 20170201, Map(12 -> 85, 15 -> 57, 00 -> 3, 09 -> 80, 21 -> 33, 03 -> 7, 18 -> 50, 06 -> 38, 17 -> 43, 23 -&

我是新手，不知道从哪里开始。我有上面提到的rdd。你能帮我从上面的RDD中提取值吗

我想提取这些值，并根据键在第3、第4和第5列中连接贴图

感谢您的帮助

您可以这样尝试一下：

RDDData===RET
(
  12345,
  20170201,
  Map(12 -> 85, 15 -> 57, 00 -> 3, 09 -> 80, 21 -> 33, 03 -> 7, 18 -> 50, 06 -> 38, 17 -> 43, 23 -> 28, 11 -> 73, 05 -> 16, 14 -> 58, 08 -> 66, 20 -> 35, 02 -> 9, 01 -> 16, 22 -> 34, 16 -> 49, 19 -> 53, 10 -> 69, 04 -> 15, 13 -> 66, 07 -> 43),
  Map(12 -> 4, 15 -> 4, 00 -> 4, 09 -> 4, 21 -> 4, 03 -> 4, 18 -> 4, 06 -> 4, 17 -> 4, 23 -> 4, 11 -> 4, 05 -> 4, 14 -> 4, 08 -> 4, 20 -> 4, 02 -> 4, 01 -> 4, 22 -> 4, 16 -> 4, 19 -> 4, 10 -> 4, 04 -> 4, 13 -> 4, 07 -> 4),
  Map(12 -> 15, 15 -> 9, 00 -> 4, 09 -> 14, 21 -> 8, 03 -> 4, 18 -> 8, 06 -> 8, 17 -> 9, 23 -> 8, 11 -> 15, 05 -> 4, 14 -> 9, 08 -> 12, 20 -> 8, 02 -> 4, 01 -> 5, 22 -> 8, 16 -> 9, 19 -> 9, 10 -> 14, 04 -> 5, 13 -> 13, 07 -> 9)
)

第一个映射函数将仅保留转换为连接所有映射的列表的映射第二个map函数将按键分组，并将所有值按顺序排列。因此，您的rdd只包含映射，由键和作为数字序列的值连接（与映射中的键匹配的数字）输出应为：

rdd.map{case(id, data, map3, map4, map5) => 
            map3.toList ++ map4.toList ++ map5.toList
       }
   .map(l => l.groupBy(_._1).map{case(k, v) => k -> v.map(_._2).toSeq)

首先，你的问题的格式根本无法理解。另外，请添加预期的输出和尝试的代码。为什么不给出OP示例中的输出（或部分输出），以便他们可以看到你是否正确解释了他们的（相当不清楚的）要求？

(12 -> [85,4,15], 15 -> [57,4,9], 00 -> [3,4,4] .....