Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 纱线和火花如何决定选择工作节点?_Hadoop_Apache Spark_Hdfs_Yarn_Resourcemanager - Fatal编程技术网

Hadoop 纱线和火花如何决定选择工作节点?

Hadoop 纱线和火花如何决定选择工作节点?,hadoop,apache-spark,hdfs,yarn,resourcemanager,Hadoop,Apache Spark,Hdfs,Yarn,Resourcemanager,据我所知,当创建作业时,它将选择存储待处理数据的作业节点作为工作节点,因为移动数据比移动代码昂贵,本地处理将显著降低网络通信成本。但我的问题是,任务是基于容器技术的,如果包含数据的节点没有足够的资源来宣布容器,该如何处理?纱线会怎么样 另一个问题是Spark如何做同样的事情?由于它基于RDD的分区(即数据的逻辑分区),并且Spark的工作节点通常不在datanode的同一台机器上运行,因此不像NodeManager for Warn与HDFS共享同一台机器,它如何处理数据传输成本?它如何决定在哪

据我所知,当创建作业时,它将选择存储待处理数据的作业节点作为工作节点,因为移动数据比移动代码昂贵,本地处理将显著降低网络通信成本。但我的问题是,任务是基于容器技术的,如果包含数据的节点没有足够的资源来宣布容器,该如何处理?纱线会怎么样

另一个问题是Spark如何做同样的事情?由于它基于RDD的分区(即数据的逻辑分区),并且Spark的工作节点通常不在datanode的同一台机器上运行,因此不像NodeManager for Warn与HDFS共享同一台机器,它如何处理数据传输成本?它如何决定在哪里运行作业