如何在Spark(Scala)中组合两个RDD?

如何在Spark(Scala)中组合两个RDD?,scala,apache-spark,Scala,Apache Spark,假设我有以下两个RDD: (这些只是每个RDD的前几行) RDD1: Time Temp 2014-08-12 13:20:00 22 2014-08-12 13:21:00 24 2014-08-12 13:24:00 26 2014-08-12 13:26:00 27 2014-08-12 13:28:00 22 RDD2: Time Age 2014-08-12 13:20:00

假设我有以下两个RDD: (这些只是每个RDD的前几行)

RDD1:

Time                   Temp 
2014-08-12 13:20:00    22
2014-08-12 13:21:00    24
2014-08-12 13:24:00    26
2014-08-12 13:26:00    27
2014-08-12 13:28:00    22
RDD2:

Time                   Age 
2014-08-12 13:20:00    45
2014-08-12 13:21:00    45
2014-08-12 13:24:00    46
2014-08-12 13:26:00    37
2014-08-12 13:28:00    122

我想合并它们,这样RDD2的列就被添加到RDD1中。我不能使用union,因为这只会将RDD2添加到RDD1的底部,而如果有意义的话,我想将它添加到“side”

join
将允许您“并排”加入这些
RDD
s。来自文档:


“在(K,V)和(K,W)类型的数据集上调用时,返回一个(K,(V,W))对的数据集,其中包含每个键的所有元素对。通过leftOuterJoin、rightOuterJoin和fullOuterJoin支持外部联接。”

您需要联接它们