Apache spark 关于Spark中数据局部性的一个问题
我的环境是Hadoop 3.2.1和Spark 2.4.5 三个执行器,每个执行器有两个内核和1g内存 关于数据位置的配置是Apache spark 关于Spark中数据局部性的一个问题,apache-spark,Apache Spark,我的环境是Hadoop 3.2.1和Spark 2.4.5 三个执行器,每个执行器有两个内核和1g内存 关于数据位置的配置是spark.locality.wait=3s 我有一个关于下图中数据位置的问题 我知道Spark更喜欢计算最接近的数据。但是与其他两个执行器相比,slave1.lab.com的计算时间超过32秒。为什么会发生这种情况,我已经配置了spark.locality.wait=3s 我回顾了这个阶段的所有任务,它们都是PROCESS\u LOCAL 为什么其他执行者更喜欢空闲而不
spark.locality.wait=3s
我有一个关于下图中数据位置的问题
我知道Spark更喜欢计算最接近的数据。但是与其他两个执行器相比,slave1.lab.com的计算时间超过32秒。为什么会发生这种情况,我已经配置了spark.locality.wait=3s
我回顾了这个阶段的所有任务,它们都是PROCESS\u LOCAL
为什么其他执行者更喜欢空闲而不是共享计算任务?尝试重新分配数据,请参见,但前一阶段是正常的。您是否更改了其他位置的等待设置
spark.locality.wait.process
,spark.locality.wait.node
…否,所有关于locality的配置都是默认的。