Apache spark 如果RDD中没有少于分区的执行器,那么如何处理RDD?

Apache spark 如果RDD中没有少于分区的执行器,那么如何处理RDD?,apache-spark,Apache Spark,我想知道下面问题的答案 如果RDD中没有少于分区的执行器,如何处理RDD?这是一种非常常见的情况;事实上,您通常会配置作业,以便任务多于执行者(请参阅) Spark将为每个分区创建一个任务,并在可用的执行器之间共享任务(请记住,一个执行器可能有多个核心,因此它可以同时处理多个任务) 因此,每个执行器将处理其共享的分区,直到它们全部被处理 Spark还将尝试将任务分配给数据的本地执行者,在可能的情况下(“本地性”-例如,请参阅),以尽量减少需要在集群中移动的数据量

我想知道下面问题的答案


如果RDD中没有少于分区的执行器,如何处理RDD?

这是一种非常常见的情况;事实上,您通常会配置作业,以便任务多于执行者(请参阅)

Spark将为每个分区创建一个任务,并在可用的执行器之间共享任务(请记住,一个执行器可能有多个核心,因此它可以同时处理多个任务)

因此,每个执行器将处理其共享的分区,直到它们全部被处理

Spark还将尝试将任务分配给数据的本地执行者,在可能的情况下(“本地性”-例如,请参阅),以尽量减少需要在集群中移动的数据量