向现有Hadoop集群添加新数据节点

向现有Hadoop集群添加新数据节点,hadoop,hdfs,Hadoop,Hdfs,我应该如何向现有hadoop集群添加新的datanode 我是否要停止所有操作,将新的datanode服务器设置为现有datanodes,并将新服务器IP添加到namenode,并将从属服务器的数量更改为正确的数量 另一个问题是:在我向集群添加一个新的datanode之后,我是否需要做任何事情来平衡所有datanode,或者将现有的文件和目录“重新分发”到不同的datanode?添加datanode不需要停止任何操作,datanode应该自己注册到Namenode;我不记得手动添加任何信息或需要

我应该如何向现有hadoop集群添加新的datanode

我是否要停止所有操作,将新的datanode服务器设置为现有datanodes,并将新服务器IP添加到namenode,并将从属服务器的数量更改为正确的数量


另一个问题是:在我向集群添加一个新的datanode之后,我是否需要做任何事情来平衡所有datanode,或者将现有的文件和目录“重新分发”到不同的datanode?

添加datanode不需要停止任何操作,datanode应该自己注册到Namenode;我不记得手动添加任何信息或需要重新启动namenode来检测datanodes(我通常使用Ambari来配置新机器)


您需要手动运行HDFS平衡器,以便将数据分散到新服务器上。对于Apache Hadoop,您可以选择以下两个选项之一:

1.-准备datanode配置(JDK、二进制文件、HADOOP_HOME env var、指向主机的xml配置文件、在主机的从属文件中添加IP等),并在此新从属文件中执行以下命令:

hadoop-daemon.sh start datanode
2.-像步骤1一样准备datanode并重新启动整个集群

3.-要重新分发现有数据,需要在hdfs-site.xml中启用dfs.disk.balancer.enabled。这将启用,您需要配置计划