Hadoop hdfs将数据分布存储在datanode中

Hadoop hdfs将数据分布存储在datanode中,hadoop,hdfs,Hadoop,Hdfs,我构建了HDFS(2个数据节点)。 我将数据存储在HDFS的数据节点中 我想使用两个DataNode以平衡的方式存储数据。 但是当我使用CLI(hadoop fs-put)时,我只存储了一个数据节点 有人有解决方案吗?我如何将数据准确地存储为两个独立的数据 听起来你在问如何设置复制因子。如果有2个数据节点,则复制系数为2将确保所有文件都存储在这两个节点上。您可以在Hadoop conf目录中的hdfs-site.xml中进行设置。您要设置: <property> <name

我构建了
HDFS
(2个数据节点)。 我将数据存储在
HDFS
的数据节点中

我想使用两个DataNode以平衡的方式存储数据。 但是当我使用
CLI
hadoop fs-put
)时,我只存储了一个数据节点


有人有解决方案吗?我如何将数据准确地存储为两个独立的数据

听起来你在问如何设置复制因子。如果有2个数据节点,则复制系数为2将确保所有文件都存储在这两个节点上。您可以在Hadoop conf目录中的hdfs-site.xml中进行设置。您要设置:

<property>
  <name>dfs.replication</name>
  <value>2</value>
</property>

-R当然会使其递归。

如果复制因子设置正确,并且您真的只想平衡日期,请使用:

hadoop平衡器[-threshold]

Hadoop页面上有很多关于再平衡器的信息(PDF格式)

hadoop fs -setrep -R 2 <path>