如何通过在python中添加2个RDD的相应元素来创建RDD

如何通过在python中添加2个RDD的相应元素来创建RDD,python,pyspark,rdd,Python,Pyspark,Rdd,所以我有两个RDD(比如RDD1和RDD2),每个RDD都有一个数字列表。这两个列表的大小相同。我想创建一个RDD3,其中RDD3中的每个元素都是RDD1和RDD2中相应元素的相加。如何在python中使用pyspark函数来实现这一点?如果列表不是太大,那么下面的方法就可以了。让我知道这是否有效,或者你是否有其他建议 rdd1 = sc.parallelize([100,200,300]) rdd2 = sc.parallelize([101,202,303]) print(rdd1.coll

所以我有两个RDD(比如RDD1和RDD2),每个RDD都有一个数字列表。这两个列表的大小相同。我想创建一个RDD3,其中RDD3中的每个元素都是RDD1和RDD2中相应元素的相加。如何在python中使用pyspark函数来实现这一点?

如果列表不是太大,那么下面的方法就可以了。让我知道这是否有效,或者你是否有其他建议

rdd1 = sc.parallelize([100,200,300])
rdd2 = sc.parallelize([101,202,303])
print(rdd1.collect())
print(rdd2.collect())
# [100, 200, 300]
# [101, 202, 303]
output = []
for i, element in enumerate(rdd1.collect()):
  output.append(element + rdd2.collect()[i])
rdd3 = sc.parallelize(output)
print(rdd3.collect())
# [201, 402, 603]