Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 关于Spark中数据局部性的一个问题_Apache Spark - Fatal编程技术网

Apache spark 关于Spark中数据局部性的一个问题

Apache spark 关于Spark中数据局部性的一个问题,apache-spark,Apache Spark,我的环境是Hadoop 3.2.1和Spark 2.4.5 三个执行器,每个执行器有两个内核和1g内存 关于数据位置的配置是spark.locality.wait=3s 我有一个关于下图中数据位置的问题 我知道Spark更喜欢计算最接近的数据。但是与其他两个执行器相比,slave1.lab.com的计算时间超过32秒。为什么会发生这种情况,我已经配置了spark.locality.wait=3s 我回顾了这个阶段的所有任务,它们都是PROCESS\u LOCAL 为什么其他执行者更喜欢空闲而不

我的环境是Hadoop 3.2.1和Spark 2.4.5

三个执行器,每个执行器有两个内核和1g内存

关于数据位置的配置是
spark.locality.wait=3s

我有一个关于下图中数据位置的问题

我知道Spark更喜欢计算最接近的数据。但是与其他两个执行器相比,slave1.lab.com的计算时间超过32秒。为什么会发生这种情况,我已经配置了
spark.locality.wait=3s

我回顾了这个阶段的所有任务,它们都是
PROCESS\u LOCAL


为什么其他执行者更喜欢空闲而不是共享计算任务?

尝试重新分配数据,请参见,但前一阶段是正常的。您是否更改了其他位置的等待设置
spark.locality.wait.process
spark.locality.wait.node
…否,所有关于locality的配置都是默认的。