Hadoop 分布式系统中增加节点的数据划分

Hadoop 分布式系统中增加节点的数据划分,hadoop,distributed-computing,Hadoop,Distributed Computing,假设我有一个分布式计算机网络,其中有1000个存储节点。 现在,如果添加了一个新节点,应该怎么做? 这意味着数据现在应该平均分为1001个节点 如果节点范围是10而不是1000,答案也会改变。客户机首先将文件拆分为块(如块A、块B),然后客户机与NameNode交互以请求放置这些块的位置(块A、块B)。NameNode向clinet提供数据节点列表以写入数据。NameNode通常为此从网络中选择最近的datanode 然后,客户机从这些列表中选择第一个datanode,并将第一个块写入datan

假设我有一个分布式计算机网络,其中有1000个存储节点。 现在,如果添加了一个新节点,应该怎么做? 这意味着数据现在应该平均分为1001个节点


如果节点范围是10而不是1000,答案也会改变。

客户机首先将文件拆分为块(如块A、块B),然后客户机与NameNode交互以请求放置这些块的位置(块A、块B)。NameNode向clinet提供数据节点列表以写入数据。NameNode通常为此从网络中选择最近的datanode

然后,客户机从这些列表中选择第一个datanode,并将第一个块写入datanode,datanode将该块复制到另一个datanodes。NameNode保留有关文件及其关联块的信息

如果hadoop集群中添加了datanode,HDFS不会将块从旧datanodes移动到新datanodes以平衡集群。为此,您需要运行平衡器

balancer程序是一个Hadoop守护进程,它通过移动块来重新分配块 从过度利用的数据节点到未充分利用的数据节点,同时遵守块副本放置策略,该策略通过将块副本放置在不同的机架上来避免数据丢失。它移动块,直到集群被认为是平衡的,这意味着每个datanode的利用率(节点上使用的空间与节点总容量的比率)与集群的利用率(集群上使用的空间与集群总容量的比率)的差异不超过给定的阈值百分比

参考:Hadoop最终指南第3版第350页

作为hadoop管理员,您应该每天安排一次平衡作业,以平衡hadoop集群上的块

与平衡器相关的有用链接:


客户端计算机首先将文件拆分为块(如块A、块B),然后客户端计算机与NameNode交互以请求放置这些块的位置(块A、块B)。NameNode向客户端提供数据节点列表以写入数据。NameNode通常为此从网络中选择最近的datanode

然后,客户机从这些列表中选择第一个datanode,并将第一个块写入datanode,datanode将该块复制到另一个datanodes。NameNode保留有关文件及其关联块的信息

如果hadoop集群中添加了datanode,HDFS不会将块从旧datanodes移动到新datanodes以平衡集群。为此,您需要运行平衡器

balancer程序是一个Hadoop守护进程,它通过移动块来重新分配块 从过度利用的数据节点到未充分利用的数据节点,同时遵守块副本放置策略,该策略通过将块副本放置在不同的机架上来避免数据丢失。它移动块,直到集群被认为是平衡的,这意味着每个datanode的利用率(节点上使用的空间与节点总容量的比率)与集群的利用率(集群上使用的空间与集群总容量的比率)的差异不超过给定的阈值百分比

参考:Hadoop最终指南第3版第350页

作为hadoop管理员,您应该每天安排一次平衡作业,以平衡hadoop集群上的块

与平衡器相关的有用链接:


客户端计算机首先将文件拆分为块(如块A、块B),然后客户端计算机与NameNode交互以请求放置这些块的位置(块A、块B)。NameNode向客户端提供数据节点列表以写入数据。NameNode通常为此从网络中选择最近的datanode

然后,客户机从这些列表中选择第一个datanode,并将第一个块写入datanode,datanode将该块复制到另一个datanodes。NameNode保留有关文件及其关联块的信息

如果hadoop集群中添加了datanode,HDFS不会将块从旧datanodes移动到新datanodes以平衡集群。为此,您需要运行平衡器

balancer程序是一个Hadoop守护进程,它通过移动块来重新分配块 从过度利用的数据节点到未充分利用的数据节点,同时遵守块副本放置策略,该策略通过将块副本放置在不同的机架上来避免数据丢失。它移动块,直到集群被认为是平衡的,这意味着每个datanode的利用率(节点上使用的空间与节点总容量的比率)与集群的利用率(集群上使用的空间与集群总容量的比率)的差异不超过给定的阈值百分比

参考:Hadoop最终指南第3版第350页

作为hadoop管理员,您应该每天安排一次平衡作业,以平衡hadoop集群上的块

与平衡器相关的有用链接:


客户端计算机首先将文件拆分为块(如块A、块B),然后客户端计算机与NameNode交互以请求放置这些块的位置(块A、块B)。NameNode向客户端提供数据节点列表以写入数据。NameNode通常为此从网络中选择最近的datanode

然后,客户机从这些列表中选择第一个datanode,并将第一个块写入datanode,datanode将该块复制到另一个datanodes。NameNode保留有关文件及其关联块的信息

如果hadoop集群中添加了datanode,HDFS不会将块从旧datanodes移动到新datanodes以平衡集群。为此,您需要运行平衡器

balancer程序是一个Hadoop守护进程,它通过移动块来重新分配块 从过度利用的数据节点到未充分利用的数据节点,同时遵守块副本放置策略,该策略通过将块副本放置在不同的服务器上而不可能丢失数据