Hadoop Spark是否在数据所在的相同节点上安排工作人员？_Hadoop_Apache Spark_Rdd

Hadoop Spark是否在数据所在的相同节点上安排工作人员？

hadoop apache-spark

Hadoop Spark是否在数据所在的相同节点上安排工作人员？,hadoop,apache-spark,rdd,Hadoop,Apache Spark,Rdd,Google MapReduce的论文称，工人被安排在数据所在的同一节点上，或者如果可能的话，至少在同一机架上。我还没有通读整个Hadoop文档，但我假设如果可能，它会将计算移动到数据，而不是将数据移动到计算（当我第一次了解Hadoop时，从HDFS到worker的所有数据都必须通过TCP连接，即使worker与数据位于同一个节点上。现在仍然是这样吗？）在任何情况下，使用ApacheSpark时，工作人员是否会被安排在与数据相同的节点上，或者RDD概念是否会使这一点变得更加困难？一般来说，这

Google MapReduce的论文称，工人被安排在数据所在的同一节点上，或者如果可能的话，至少在同一机架上。我还没有通读整个Hadoop文档，但我假设如果可能，它会将计算移动到数据，而不是将数据移动到计算

（当我第一次了解Hadoop时，从HDFS到worker的所有数据都必须通过TCP连接，即使worker与数据位于同一个节点上。现在仍然是这样吗？）

在任何情况下，使用ApacheSpark时，工作人员是否会被安排在与数据相同的节点上，或者RDD概念是否会使这一点变得更加困难？

一般来说，这取决于具体情况。Spark可识别多个级别的位置（包括

过程本地

，

节点本地

，

机架本地

），并尝试调度任务以实现最佳位置级别。看中

可以使用

spark.locality.*

properties来控制精确的行为。它包括调度器在选择局部性较低的节点之前等待可用资源的时间量。再见