基于多节点集群的Hadoop Map reduce程序

基于多节点集群的Hadoop Map reduce程序,hadoop,mapreduce,Hadoop,Mapreduce,我有一个关于Hadoop Map reduce的查询。我们有3个集群,每个集群有5个节点。现在,如果我写了一个Map-Reduce程序&希望运行它来处理所有3个集群上的数据。我需要仅在1个节点上运行此Map reduce程序,还是需要在所有节点上运行Map reduce程序?最后,它需要处理我的3个集群上的所有数据。您只需要在一个节点上运行MR程序,MR框架将在集群中的所有从属节点上执行它 MR框架的一个优点是执行基于数据局部性,计算移动到数据存在的节点。由于您有3个集群,为了获得良好的性能,最

我有一个关于Hadoop Map reduce的查询。我们有3个集群,每个集群有5个节点。现在,如果我写了一个Map-Reduce程序&希望运行它来处理所有3个集群上的数据。我需要仅在1个节点上运行此Map reduce程序,还是需要在所有节点上运行Map reduce程序?最后,它需要处理我的3个集群上的所有数据。

您只需要在一个节点上运行MR程序,MR框架将在集群中的所有从属节点上执行它

MR框架的一个优点是执行基于数据局部性,计算移动到数据存在的节点。由于您有3个集群,为了获得良好的性能,最好在所有这三个集群上部署或运行应用程序

也可以在一个集群中处理这三个集群的数据,前提是您的集群位于同一网络中。您不应该这样做,因为这会降低性能。其他集群中的数据需要带到实际执行的集群中。这可以通过使用hdfsuri实现

Eg : Cluster A hdfs URI : hdfs://nnhost-clusterA:8020/inputfile
     Cluster B HDFS URI : hdfs://nnhost-clusterB:8020/input
通过提供完整的HDFS URI,您可以从集群C访问上述两个集群A和B中的数据