Python 将每个元素视为元组时,在PySpark中加入2个RDD

Python 将每个元素视为元组时,在PySpark中加入2个RDD,python,join,apache-spark,pyspark,Python,Join,Apache Spark,Pyspark,我不知道如何准确地描述它,但示例是: 给出两个RDD: x=sc.parallelize([(“a”,1),(“b”,4)]) y=sc.parallelize([(“a”,2),(“c”,8)]) ,我想得到结果: 在本例中,join转换似乎不起作用 所以我想问,我可以使用什么样的转换来获得预期的结果?谢谢大家! 读了这篇文章后,我发现一种解决方法是: x.cartesian(y)因为RDD有一些模仿SQL的操作,这不是你想要的吗?这篇文章并没有直接回答你的问题,但可能会有所帮助。按照赵振杰

我不知道如何准确地描述它,但示例是:

给出两个RDD:

x=sc.parallelize([(“a”,1),(“b”,4)])

y=sc.parallelize([(“a”,2),(“c”,8)])

,我想得到结果:

在本例中,
join
转换似乎不起作用

所以我想问,我可以使用什么样的转换来获得预期的结果?谢谢大家!

读了这篇文章后,我发现一种解决方法是:


x.cartesian(y)

因为RDD有一些模仿SQL的操作,这不是你想要的吗?

这篇文章并没有直接回答你的问题,但可能会有所帮助。按照赵振杰的回答——笛卡尔: