Python 将每个元素视为元组时，在PySpark中加入2个RDD_Python_Join_Apache Spark_Pyspark

Python 将每个元素视为元组时，在PySpark中加入2个RDD

python join apache-spark pyspark

Python 将每个元素视为元组时，在PySpark中加入2个RDD,python,join,apache-spark,pyspark,Python,Join,Apache Spark,Pyspark,我不知道如何准确地描述它，但示例是：给出两个RDD： x=sc.parallelize（[（“a”，1），（“b”，4）]） y=sc.parallelize（[（“a”，2），（“c”，8）]），我想得到结果：在本例中，join转换似乎不起作用所以我想问，我可以使用什么样的转换来获得预期的结果？谢谢大家! 读了这篇文章后，我发现一种解决方法是： x.cartesian（y）因为RDD有一些模仿SQL的操作，这不是你想要的吗？这篇文章并没有直接回答你的问题，但可能会有所帮助。按照赵振杰

我不知道如何准确地描述它，但示例是：

给出两个RDD：

x=sc.parallelize（[（“a”，1），（“b”，4）]）

y=sc.parallelize（[（“a”，2），（“c”，8）]）

，我想得到结果：


在本例中，join
转换似乎不起作用
所以我想问，我可以使用什么样的转换来获得预期的结果？谢谢大家!
 读了这篇文章后，我发现一种解决方法是：
x.cartesian（y）
因为RDD有一些模仿SQL的操作，这不是你想要的吗？
这篇文章并没有直接回答你的问题，但可能会有所帮助。按照赵振杰的回答——笛卡尔：