Apache spark 如果RDD中没有少于分区的执行器，那么如何处理RDD？_Apache Spark

Apache spark 如果RDD中没有少于分区的执行器，那么如何处理RDD？

apache-spark

Apache spark 如果RDD中没有少于分区的执行器，那么如何处理RDD？,apache-spark,Apache Spark,我想知道下面问题的答案如果RDD中没有少于分区的执行器，如何处理RDD？这是一种非常常见的情况；事实上，您通常会配置作业，以便任务多于执行者（请参阅） Spark将为每个分区创建一个任务，并在可用的执行器之间共享任务（请记住，一个执行器可能有多个核心，因此它可以同时处理多个任务）因此，每个执行器将处理其共享的分区，直到它们全部被处理 Spark还将尝试将任务分配给数据的本地执行者，在可能的情况下（“本地性”-例如，请参阅），以尽量减少需要在集群中移动的数据量

我想知道下面问题的答案

如果RDD中没有少于分区的执行器，如何处理RDD？

这是一种非常常见的情况；事实上，您通常会配置作业，以便任务多于执行者（请参阅）

Spark将为每个分区创建一个任务，并在可用的执行器之间共享任务（请记住，一个执行器可能有多个核心，因此它可以同时处理多个任务）

因此，每个执行器将处理其共享的分区，直到它们全部被处理

Spark还将尝试将任务分配给数据的本地执行者，在可能的情况下（“本地性”-例如，请参阅），以尽量减少需要在集群中移动的数据量