Apache spark 火花交叉口的实现
Spark如何实现交叉法?是否需要2个RDD在一台机器上进行克隆 From说它使用哈希表,这有点奇怪,因为它可能不可伸缩,对两个RDD进行排序,然后逐项比较可能会提供一个更可伸缩的解决方案Apache spark 火花交叉口的实现,apache-spark,pyspark,Apache Spark,Pyspark,Spark如何实现交叉法?是否需要2个RDD在一台机器上进行克隆 From说它使用哈希表,这有点奇怪,因为它可能不可伸缩,对两个RDD进行排序,然后逐项比较可能会提供一个更可伸缩的解决方案 关于这个主题的任何想法都是受欢迎的它肯定不需要RDD在一台机器上进行协作。您只需查看详细信息。看起来它使用了一个cogroup。只是猜测一下实现:如果有多个子集a,那么它们的并集将等同于a,以及B的多个子集;难道并集(交点(A1,B1),交点(A2,B2),…交点(An,Bn))不等于交点(A,B)?如果这是
关于这个主题的任何想法都是受欢迎的它肯定不需要RDD在一台机器上进行协作。您只需查看详细信息。看起来它使用了一个cogroup。只是猜测一下实现:如果有多个子集
a
,那么它们的并集将等同于a
,以及B
的多个子集;难道并集(交点(A1,B1),交点(A2,B2),…交点(An,Bn))不等于交点(A,B)
?如果这是真的,那么它可能就是这样工作的,也就是说,A1
和B1
只是A
和B
的分区/子集。。。