Hadoop HDFS+；不同的磁盘大小节点+；数据卷选择策略_Hadoop_Hdfs_Ambari_Hdp

Hadoop HDFS+；不同的磁盘大小节点+；数据卷选择策略

hadoop

Hadoop HDFS+；不同的磁盘大小节点+；数据卷选择策略,hadoop,hdfs,ambari,hdp,Hadoop,Hdfs,Ambari,Hdp,假设我们有一个包含以下详细信息的集群 10个节点的HDFS群集，4个节点的磁盘大小为10 TB，6个节点的磁盘大小为1 TB 在Hadoop-2.6、cloudera-5.8上，如果数据节点机器上的磁盘大小不同，我们可以将默认值从循环更改为可用空间范例查看dfs.datanode.fsdataset.volume.Selecting.policy。默认情况下，这设置为循环，但由于您有一个非对称磁盘设置，您应该将其更改为可用空间由于我们有hortonwoks HDP群集版本2.6.5 我们

假设我们有一个包含以下详细信息的集群

10个节点的HDFS群集，4个节点的磁盘大小为10 TB，6个节点的磁盘大小为1 TB

在Hadoop-2.6、cloudera-5.8上，如果数据节点机器上的磁盘大小不同，我们可以将默认值从循环更改为可用空间

范例

查看dfs.datanode.fsdataset.volume.Selecting.policy。默认情况下，这设置为循环，但由于您有一个非对称磁盘设置，您应该将其更改为可用空间

由于我们有hortonwoks HDP群集版本2.6.5

我们正在寻找同样的能力

所以我们在ambari HDFS-->配置中搜索但是我们没有找到关于

循环/可用空间的配置。

HDP2.6.5 ambari集群是否可以提供这种能力

目标是平衡所有磁盘上的数据，考虑到一些磁盘是小的，然后其他的< /P>

我不熟悉任何此类平衡规则或属性，但您可以在Ambari配置中应用节点标签，以便使用不同的配置加载数据节点（例如数据节点的装载点）

我完成再平衡的唯一方法是使用HDFS rebalance CLI

您也可以尝试将

dfs.datanode.fsdataset.volume.selection.policy

属性放入自定义hdfs-site.xml部分，但是根据我找到的Cloudera论坛，循环是默认的，不建议使用可用空间

如果仍要将其设置为“可用空间”属性，则

org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy

您说过-我完成重新平衡的唯一方法是通过hdfs-re-balance CLI，您有没有示例？关于-org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy，如何在hdfs-->配置中进行设置？据我所见，此-org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy仅适用于cloudera而非hostronworks群集请参见-它是一个全局hadoop属性，cloudera/Hortonworks不会“删除”它，只有一个用户可以“选择公开它”。您可以在Apache站点上找到它