Python 将每个元素视为元组时,在PySpark中加入2个RDD
我不知道如何准确地描述它,但示例是: 给出两个RDD:Python 将每个元素视为元组时,在PySpark中加入2个RDD,python,join,apache-spark,pyspark,Python,Join,Apache Spark,Pyspark,我不知道如何准确地描述它,但示例是: 给出两个RDD: x=sc.parallelize([(“a”,1),(“b”,4)]) y=sc.parallelize([(“a”,2),(“c”,8)]) ,我想得到结果: 在本例中,join转换似乎不起作用 所以我想问,我可以使用什么样的转换来获得预期的结果?谢谢大家! 读了这篇文章后,我发现一种解决方法是: x.cartesian(y)因为RDD有一些模仿SQL的操作,这不是你想要的吗?这篇文章并没有直接回答你的问题,但可能会有所帮助。按照赵振杰
x=sc.parallelize([(“a”,1),(“b”,4)])
y=sc.parallelize([(“a”,2),(“c”,8)])
,我想得到结果:
在本例中,join
转换似乎不起作用
所以我想问,我可以使用什么样的转换来获得预期的结果?谢谢大家! 读了这篇文章后,我发现一种解决方法是:
x.cartesian(y)
因为RDD有一些模仿SQL的操作,这不是你想要的吗?这篇文章并没有直接回答你的问题,但可能会有所帮助。按照赵振杰的回答——笛卡尔: