如何在Spark(Scala)中组合两个RDD?
假设我有以下两个RDD: (这些只是每个RDD的前几行) RDD1:如何在Spark(Scala)中组合两个RDD?,scala,apache-spark,Scala,Apache Spark,假设我有以下两个RDD: (这些只是每个RDD的前几行) RDD1: Time Temp 2014-08-12 13:20:00 22 2014-08-12 13:21:00 24 2014-08-12 13:24:00 26 2014-08-12 13:26:00 27 2014-08-12 13:28:00 22 RDD2: Time Age 2014-08-12 13:20:00
Time Temp
2014-08-12 13:20:00 22
2014-08-12 13:21:00 24
2014-08-12 13:24:00 26
2014-08-12 13:26:00 27
2014-08-12 13:28:00 22
RDD2:
Time Age
2014-08-12 13:20:00 45
2014-08-12 13:21:00 45
2014-08-12 13:24:00 46
2014-08-12 13:26:00 37
2014-08-12 13:28:00 122
我想合并它们,这样RDD2的列就被添加到RDD1中。我不能使用union,因为这只会将RDD2添加到RDD1的底部,而如果有意义的话,我想将它添加到“side”
join
将允许您“并排”加入这些RDD
s。来自文档:
“在(K,V)和(K,W)类型的数据集上调用时,返回一个(K,(V,W))对的数据集,其中包含每个键的所有元素对。通过leftOuterJoin、rightOuterJoin和fullOuterJoin支持外部联接。”您需要联接它们