Apache spark ApacheSpark RDD分区和连接

Apache spark ApacheSpark RDD分区和连接,apache-spark,rdd,Apache Spark,Rdd,当IjointwoRDDs实际连接的数据在哪里时,即数据是否在驱动程序上聚合,然后发送回工作节点,或者是否随机选择其中一个节点“接收”数据?此外,如果我在pairdd上调用partition,那么分区是由键自动完成的吗 否,它不会通过驱动程序或任何单个节点进行。在执行者之间的许多任务中,每个任务都会收集(来自两个父项)密钥子集的所有值。这些任务在迭代过程中形成每个键的联接产品。分区是按键进行的。连接两个相同分区的RDD是有利的,因为可以避免混乱

当I
join
two
RDD
s实际连接的数据在哪里时,即数据是否在驱动程序上聚合,然后发送回工作节点,或者是否随机选择其中一个节点“接收”数据?此外,如果我在
pairdd
上调用
partition
,那么分区是由键自动完成的吗

否,它不会通过驱动程序或任何单个节点进行。在执行者之间的许多任务中,每个任务都会收集(来自两个父项)密钥子集的所有值。这些任务在迭代过程中形成每个键的联接产品。分区是按键进行的。连接两个相同分区的RDD是有利的,因为可以避免混乱