Apache spark 火花交叉口的实现_Apache Spark_Pyspark

Apache spark 火花交叉口的实现

apache-spark pyspark

Apache spark 火花交叉口的实现,apache-spark,pyspark,Apache Spark,Pyspark,Spark如何实现交叉法？是否需要2个RDD在一台机器上进行克隆 From说它使用哈希表，这有点奇怪，因为它可能不可伸缩，对两个RDD进行排序，然后逐项比较可能会提供一个更可伸缩的解决方案关于这个主题的任何想法都是受欢迎的它肯定不需要RDD在一台机器上进行协作。您只需查看详细信息。看起来它使用了一个cogroup。只是猜测一下实现：如果有多个子集a，那么它们的并集将等同于a，以及B的多个子集；难道并集（交点（A1，B1），交点（A2，B2），…交点（An，Bn））不等于交点（A，B）？如果这是

Spark如何实现交叉法？是否需要2个RDD在一台机器上进行克隆

From说它使用哈希表，这有点奇怪，因为它可能不可伸缩，对两个RDD进行排序，然后逐项比较可能会提供一个更可伸缩的解决方案

关于这个主题的任何想法都是受欢迎的

它肯定不需要RDD在一台机器上进行协作。您只需查看详细信息。看起来它使用了一个cogroup。

只是猜测一下实现：如果有多个子集

，那么它们的并集将等同于

，以及

的多个子集；难道

并集（交点（A1，B1），交点（A2，B2），…交点（An，Bn））不等于交点（A，B）
？如果这是真的，那么它可能就是这样工作的，也就是说，A1
和B1
只是A
和B
的分区/子集。。。