Hadoop Spark是否在数据所在的相同节点上安排工作人员?

Hadoop Spark是否在数据所在的相同节点上安排工作人员?,hadoop,apache-spark,rdd,Hadoop,Apache Spark,Rdd,Google MapReduce的论文称,工人被安排在数据所在的同一节点上,或者如果可能的话,至少在同一机架上。我还没有通读整个Hadoop文档,但我假设如果可能,它会将计算移动到数据,而不是将数据移动到计算 (当我第一次了解Hadoop时,从HDFS到worker的所有数据都必须通过TCP连接,即使worker与数据位于同一个节点上。现在仍然是这样吗?) 在任何情况下,使用ApacheSpark时,工作人员是否会被安排在与数据相同的节点上,或者RDD概念是否会使这一点变得更加困难?一般来说,这

Google MapReduce的论文称,工人被安排在数据所在的同一节点上,或者如果可能的话,至少在同一机架上。我还没有通读整个Hadoop文档,但我假设如果可能,它会将计算移动到数据,而不是将数据移动到计算

(当我第一次了解Hadoop时,从HDFS到worker的所有数据都必须通过TCP连接,即使worker与数据位于同一个节点上。现在仍然是这样吗?)


在任何情况下,使用ApacheSpark时,工作人员是否会被安排在与数据相同的节点上,或者RDD概念是否会使这一点变得更加困难?

一般来说,这取决于具体情况。Spark可识别多个级别的位置(包括
过程本地
节点本地
机架本地
),并尝试调度任务以实现最佳位置级别。看中

可以使用
spark.locality.*
properties来控制精确的行为。它包括调度器在选择局部性较低的节点之前等待可用资源的时间量。再见