Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 火花交叉口的实现_Apache Spark_Pyspark - Fatal编程技术网

Apache spark 火花交叉口的实现

Apache spark 火花交叉口的实现,apache-spark,pyspark,Apache Spark,Pyspark,Spark如何实现交叉法?是否需要2个RDD在一台机器上进行克隆 From说它使用哈希表,这有点奇怪,因为它可能不可伸缩,对两个RDD进行排序,然后逐项比较可能会提供一个更可伸缩的解决方案 关于这个主题的任何想法都是受欢迎的它肯定不需要RDD在一台机器上进行协作。您只需查看详细信息。看起来它使用了一个cogroup。只是猜测一下实现:如果有多个子集a,那么它们的并集将等同于a,以及B的多个子集;难道并集(交点(A1,B1),交点(A2,B2),…交点(An,Bn))不等于交点(A,B)?如果这是

Spark如何实现交叉法?是否需要2个RDD在一台机器上进行克隆

From说它使用哈希表,这有点奇怪,因为它可能不可伸缩,对两个RDD进行排序,然后逐项比较可能会提供一个更可伸缩的解决方案


关于这个主题的任何想法都是受欢迎的

它肯定不需要RDD在一台机器上进行协作。您只需查看详细信息。看起来它使用了一个cogroup。

只是猜测一下实现:如果有多个子集
a
,那么它们的并集将等同于
a
,以及
B
的多个子集;难道
并集(交点(A1,B1),交点(A2,B2),…交点(An,Bn))不等于
交点(A,B)
?如果这是真的,那么它可能就是这样工作的,也就是说,
A1
B1
只是
A
B
的分区/子集。。。