Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop PySpark中的.cartesian()_Hadoop_Apache Spark_Pyspark - Fatal编程技术网

Hadoop PySpark中的.cartesian()

Hadoop PySpark中的.cartesian(),hadoop,apache-spark,pyspark,Hadoop,Apache Spark,Pyspark,我创建了rdd=sc.parallelizerange200。然后我设置rdd2=rdd.cartesianrdd。我发现rdd2.count是40000。但是,当我设置rdd3=rdd2.cartesianrdd时,rdd3.count小于20000。为什么会这样?这是一个被跟踪的错误。这确实很奇怪。我刚刚在Scala中尝试了相同的操作序列,结果生成了一个包含8M项的RDD。在pyspark中,对我来说,rdd3.count的结果是3200。也许它与分区的数量有关?更可能与它的实现方式有关。c

我创建了rdd=sc.parallelizerange200。然后我设置rdd2=rdd.cartesianrdd。我发现rdd2.count是40000。但是,当我设置rdd3=rdd2.cartesianrdd时,rdd3.count小于20000。为什么会这样?

这是一个被跟踪的错误。

这确实很奇怪。我刚刚在Scala中尝试了相同的操作序列,结果生成了一个包含8M项的RDD。在pyspark中,对我来说,rdd3.count的结果是3200。也许它与分区的数量有关?更可能与它的实现方式有关。cartesian使用了一些丑陋的serde技巧来重用Java代码。如果我很确定你可以为此打开JIRA。即使在Databricks云上,我也看到了同样的问题:有人为这个问题打开了JIRA吗?[1]: