如何在Hadoop中设置NameNodes、DataNodes、Mapper和Reducer的数量

如何在Hadoop中设置NameNodes、DataNodes、Mapper和Reducer的数量,hadoop,mapreduce,reducers,namenode,mappers,Hadoop,Mapreduce,Reducers,Namenode,Mappers,我想知道如何设置电话号码 名称节点 数据节点 制图员 还原剂 在Hadoop的代码/配置中。名称节点和数据节点计数取决于您的业务需求。你不能通过编程来设置它们 如果您需要可伸缩性,则必须研究HDFS联合的概念 有关联合的更多详细信息,请参阅本文档 为了水平扩展名称服务,联合使用多个独立的名称节点/名称空间。Namenodes是联合的;Namenodes是独立的,不需要相互协调。Datanodes被所有Namenodes用作块的公共存储 映射器的数量由输入拆分决定 您可以通过编程设置减速机的数量

我想知道如何设置电话号码

名称节点

数据节点

制图员

还原剂


在Hadoop的代码/配置中。

名称节点和数据节点计数取决于您的业务需求。你不能通过编程来设置它们

如果您需要可伸缩性,则必须研究HDFS联合的概念

有关联合的更多详细信息,请参阅本文档

为了水平扩展名称服务,联合使用多个独立的名称节点/名称空间。Namenodes是联合的;Namenodes是独立的,不需要相互协调。Datanodes被所有Namenodes用作块的公共存储

映射器的数量由输入拆分决定

您可以通过编程设置减速机的数量,但framwork没有义务遵守您的建议

所以最好让Hadoop决定映射器和还原器的数量

看看这个相关的SE问题:

编辑:

Hadoop群集大小: 1.从您的业务需求中确定数据需求 2.确定数据的复制因子 3.计算未来几年的数据泄漏率 4.一旦有了上述数据,您就可以考虑Namenode和Datanode的理想集群大小和硬件要求

有关更多详细信息,请参阅此cloudera

映射的正确并行级别似乎是每个节点10-100个映射“这里的节点是指NameNode还是DataNode

这是数据节点

当谈到映射程序时,有些人说与拆分的数量相同,另一些人说相同的块数,而另一些人说这是由框架决定的

它是由hadoop框架根据输入拆分的数量决定的

查看相关SE问题:


感谢您的回答,我知道可以通过配置来设置名称节点,映射器和还原器由Hadoop框架决定。现在,如何设置数据节点的数量?您给我的第二个链接中还提到:“映射的正确并行度似乎是每个节点10-100个映射“节点在这里是指NameNode还是DataNode?当谈到映射器时,有些人说与拆分的数目相同,另一些人说与块的数目相同,而另一些人说这是由框架决定的,可能没有给出拆分或块的确切数目,那么从上面看哪一个是正确的?