Hadoop集群配置

Hadoop集群配置,hadoop,Hadoop,现在我想向hadoop集群添加一个新的Datanode 我需要停止或关闭hadoop集群并添加新的datanode吗 如何在hadoop集群中添加一个新的datanode基本上是停止集群,将节点的IP地址添加到conf/slaves,然后重新启动集群 PS:Iff启动和停止很烦人(在包含大量文件的大型集群中可能需要数小时),您可以在其中添加一些人工IP,当更多的从属服务器加入集群时,您只需启动它们即可。Hadoop不关心配置了多少从机或关闭了多少从机:它将使用它所能得到的。定义尚未存在的从机是在

现在我想向hadoop集群添加一个新的Datanode 我需要停止或关闭hadoop集群并添加新的datanode吗
如何在hadoop集群中添加一个新的datanode基本上是停止集群,将节点的IP地址添加到
conf/slaves
,然后重新启动集群


PS:Iff启动和停止很烦人(在包含大量文件的大型集群中可能需要数小时),您可以在其中添加一些人工IP,当更多的从属服务器加入集群时,您只需启动它们即可。Hadoop不关心配置了多少从机或关闭了多少从机:它将使用它所能得到的。定义尚未存在的从机是在Hadoop中热连接从机的良好实践。

在这种情况下,您不需要关闭或重新启动整个集群。
首先,将新节点的主机名添加到主节点上的conf/slaves文件中。 还要在所有机器上的etc/hosts文件中添加IP地址和主机名,以便它们通信。然后登录到新的从属节点并执行以下命令:

$ cd path/to/hadoop 
$ bin/hadoop-daemon.sh start datanode 
$ bin/hadoop-daemon.sh start tasktracker

您不需要重新启动hadoop集群。因此,您可以在includes文件中添加节点,并对hdfs-site.xml和mapred-site.xml文件进行一些更改,就可以实现这一点。详细说明在

中给出,因此在添加新数据节点之前是否必须停止群集?在这种情况下:是。因为每个其他TT和DN都必须知道您的整个集群(并且仅在启动时填充从属配置)。而且由于这有点奇怪,您可以为未来节点添加“保留”(尚未加入)IP。这样,您只需在保留的IP用完时取下群集:-)这也让我感到困扰。一些公司,比如facebook,不会重启Hadoop集群来添加节点。我认为这就是大规模集群的配置方式。