Apache spark 关于Spark中数据局部性的一个问题_Apache Spark

Apache spark 关于Spark中数据局部性的一个问题

apache-spark

Apache spark 关于Spark中数据局部性的一个问题,apache-spark,Apache Spark,我的环境是Hadoop 3.2.1和Spark 2.4.5 三个执行器，每个执行器有两个内核和1g内存关于数据位置的配置是spark.locality.wait=3s 我有一个关于下图中数据位置的问题我知道Spark更喜欢计算最接近的数据。但是与其他两个执行器相比，slave1.lab.com的计算时间超过32秒。为什么会发生这种情况，我已经配置了spark.locality.wait=3s 我回顾了这个阶段的所有任务，它们都是PROCESS\u LOCAL 为什么其他执行者更喜欢空闲而不

我的环境是Hadoop 3.2.1和Spark 2.4.5

三个执行器，每个执行器有两个内核和1g内存

关于数据位置的配置是

spark.locality.wait=3s

我有一个关于下图中数据位置的问题

我知道Spark更喜欢计算最接近的数据。但是与其他两个执行器相比，slave1.lab.com的计算时间超过32秒。为什么会发生这种情况，我已经配置了

spark.locality.wait=3s

我回顾了这个阶段的所有任务，它们都是

PROCESS\u LOCAL

为什么其他执行者更喜欢空闲而不是共享计算任务？

尝试重新分配数据，请参见，但前一阶段是正常的。您是否更改了其他位置的等待设置

spark.locality.wait.process

，

spark.locality.wait.node

…否，所有关于locality的配置都是默认的。