基于多节点集群的Hadoop Map reduce程序_Hadoop_Mapreduce

基于多节点集群的Hadoop Map reduce程序

hadoop mapreduce

基于多节点集群的Hadoop Map reduce程序,hadoop,mapreduce,Hadoop,Mapreduce,我有一个关于Hadoop Map reduce的查询。我们有3个集群，每个集群有5个节点。现在，如果我写了一个Map-Reduce程序&希望运行它来处理所有3个集群上的数据。我需要仅在1个节点上运行此Map reduce程序，还是需要在所有节点上运行Map reduce程序？最后，它需要处理我的3个集群上的所有数据。您只需要在一个节点上运行MR程序，MR框架将在集群中的所有从属节点上执行它 MR框架的一个优点是执行基于数据局部性，计算移动到数据存在的节点。由于您有3个集群，为了获得良好的性能，最

我有一个关于Hadoop Map reduce的查询。我们有3个集群，每个集群有5个节点。现在，如果我写了一个Map-Reduce程序&希望运行它来处理所有3个集群上的数据。我需要仅在1个节点上运行此Map reduce程序，还是需要在所有节点上运行Map reduce程序？最后，它需要处理我的3个集群上的所有数据。

您只需要在一个节点上运行MR程序，MR框架将在集群中的所有从属节点上执行它

MR框架的一个优点是执行基于数据局部性，计算移动到数据存在的节点。由于您有3个集群，为了获得良好的性能，最好在所有这三个集群上部署或运行应用程序

也可以在一个集群中处理这三个集群的数据，前提是您的集群位于同一网络中。您不应该这样做，因为这会降低性能。其他集群中的数据需要带到实际执行的集群中。这可以通过使用hdfsuri实现

Eg : Cluster A hdfs URI : hdfs://nnhost-clusterA:8020/inputfile
     Cluster B HDFS URI : hdfs://nnhost-clusterB:8020/input

通过提供完整的HDFS URI，您可以从集群C访问上述两个集群A和B中的数据