Join 如何在pyspark中连接多个RDD而不转换为DF

Join 如何在pyspark中连接多个RDD而不转换为DF,join,pyspark,rdd,Join,Pyspark,Rdd,我有三个RDD(x,y,z),我想加入。所有三个RDD的第一个元素是用于连接的键 我知道如何加入两个: rdd1 = x.map(lambda r: (r[0], r[1:])) rdd2 = y.map(lambda r: (r[0], r[1:])) rdd1_rdd2 = rdd1.join(rdd2) 如何将第三个RDD z连接到rdd1\u rdd2?只需添加另一个连接并展平结果: rdd1_rdd2.join(rdd3).mapValues(lambda x: x[0] + (x[

我有三个RDD(x,y,z),我想加入。所有三个RDD的第一个元素是用于连接的键

我知道如何加入两个:

rdd1 = x.map(lambda r: (r[0], r[1:]))
rdd2 = y.map(lambda r: (r[0], r[1:]))
rdd1_rdd2 = rdd1.join(rdd2)

如何将第三个RDD z连接到rdd1\u rdd2?

只需添加另一个连接并展平结果:

rdd1_rdd2.join(rdd3).mapValues(lambda x: x[0] + (x[1], ))

只需添加另一个连接并展平结果:

rdd1_rdd2.join(rdd3).mapValues(lambda x: x[0] + (x[1], ))