Hadoop PySpark中的.cartesian（）_Hadoop_Apache Spark_Pyspark

Hadoop PySpark中的.cartesian（）

hadoop apache-spark pyspark

Hadoop PySpark中的.cartesian（）,hadoop,apache-spark,pyspark,Hadoop,Apache Spark,Pyspark,我创建了rdd=sc.parallelizerange200。然后我设置rdd2=rdd.cartesianrdd。我发现rdd2.count是40000。但是，当我设置rdd3=rdd2.cartesianrdd时，rdd3.count小于20000。为什么会这样？这是一个被跟踪的错误。这确实很奇怪。我刚刚在Scala中尝试了相同的操作序列，结果生成了一个包含8M项的RDD。在pyspark中，对我来说，rdd3.count的结果是3200。也许它与分区的数量有关？更可能与它的实现方式有关。c

我创建了rdd=sc.parallelizerange200。然后我设置rdd2=rdd.cartesianrdd。我发现rdd2.count是40000。但是，当我设置rdd3=rdd2.cartesianrdd时，rdd3.count小于20000。为什么会这样？

这是一个被跟踪的错误。

这确实很奇怪。我刚刚在Scala中尝试了相同的操作序列，结果生成了一个包含8M项的RDD。在pyspark中，对我来说，rdd3.count的结果是3200。也许它与分区的数量有关？更可能与它的实现方式有关。cartesian使用了一些丑陋的serde技巧来重用Java代码。如果我很确定你可以为此打开JIRA。即使在Databricks云上，我也看到了同样的问题：有人为这个问题打开了JIRA吗？[1]: