Hadoop HDFS副本+；和HDFS群集中的最小数据节点数_Hadoop_Hdfs_Datanode

Hadoop HDFS副本+；和HDFS群集中的最小数据节点数

hadoop

Hadoop HDFS副本+；和HDFS群集中的最小数据节点数,hadoop,hdfs,datanode,Hadoop,Hdfs,Datanode,我们的Hadoop集群只有两个数据节点在HDFS配置中，我们将块复制定义为3 所以可以吗？在群集中只有两个数据节点时定义块复制=3 根据我的理解，当我们定义Blockreplication=3时，当我们在HDFS集群中有两台数据节点机器时，这意味着一台机器应该有两个副本，另一台机器应该有一个副本，我在这里是否正确？复制因子的全部目的是容错。例如，复制因子是3，如果我们从集群中丢失hadoop datanode，我们可以在集群中用另外两个副本复制数据。因此，在您的情况下，如果datanodes

我们的Hadoop集群只有两个数据节点

在

HDFS

配置中，我们将

块复制定义为3

所以
可以吗？在群集中只有两个数据节点时定义块复制=3

根据我的理解，当我们定义Blockreplication=3
时，当我们在HDFS
集群中有两台数据节点机器时，这意味着一台机器应该有两个副本，另一台机器应该有一个副本，我在这里是否正确？复制因子的全部目的是容错。例如，复制因子是3，如果我们从集群中丢失hadoop datanode，我们可以在集群中用另外两个副本复制数据。因此，在您的情况下，如果datanodes的数量为2，并且复制因子为3，那么如果node-a有2个副本，而另一个node-b有1个副本，则是。如果我们丢失了一个节点a或节点b，那么在这里，我们将拥有其他节点中可用的数据，以满足任何目的。
除了node-a将占用两倍空间这一事实之外，这是不必要的，因为复制因子2本身已经满足了容错目的
同样，整个解释是针对你的情况的。当在一个包含2个以上节点的集群中可视化时，整个概念将更有意义
下面是hadoop文档的详细解释

Block replication=3