Hadoop HDFS+;不同的磁盘大小节点+;数据卷选择策略

Hadoop HDFS+;不同的磁盘大小节点+;数据卷选择策略,hadoop,hdfs,ambari,hdp,Hadoop,Hdfs,Ambari,Hdp,假设我们有一个包含以下详细信息的集群 10个节点的HDFS群集,4个节点的磁盘大小为10 TB,6个节点的磁盘大小为1 TB 在Hadoop-2.6、cloudera-5.8上,如果数据节点机器上的磁盘大小不同,我们可以将默认值从循环更改为可用空间 范例 查看dfs.datanode.fsdataset.volume.Selecting.policy。默认情况下,这设置为循环,但由于您有一个非对称磁盘设置,您应该将其更改为可用空间 由于我们有hortonwoks HDP群集版本2.6.5 我们

假设我们有一个包含以下详细信息的集群

10个节点的HDFS群集,4个节点的磁盘大小为10 TB,6个节点的磁盘大小为1 TB

在Hadoop-2.6、cloudera-5.8上,如果数据节点机器上的磁盘大小不同,我们可以将默认值从循环更改为可用空间

范例

查看dfs.datanode.fsdataset.volume.Selecting.policy。默认情况下,这设置为循环,但由于您有一个非对称磁盘设置,您应该将其更改为可用空间

由于我们有hortonwoks HDP群集版本2.6.5

我们正在寻找同样的能力

所以我们在ambari HDFS-->配置中搜索 但是我们没有找到关于
循环/可用空间的配置。

HDP2.6.5 ambari集群是否可以提供这种能力

目标是平衡所有磁盘上的数据,考虑到一些磁盘是小的,然后其他的< /P>

我不熟悉任何此类平衡规则或属性,但您可以在Ambari配置中应用节点标签,以便使用不同的配置加载数据节点(例如数据节点的装载点)

我完成再平衡的唯一方法是使用HDFS rebalance CLI

您也可以尝试将
dfs.datanode.fsdataset.volume.selection.policy
属性放入自定义hdfs-site.xml部分,但是根据我找到的Cloudera论坛,循环是默认的,不建议使用可用空间

如果仍要将其设置为“可用空间”属性,则
org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy

您说过-我完成重新平衡的唯一方法是通过hdfs-re-balance CLI,您有没有示例?关于-org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy,如何在hdfs-->配置中进行设置?据我所见,此-org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy仅适用于cloudera而非hostronworks群集请参见-它是一个全局hadoop属性,cloudera/Hortonworks不会“删除”它,只有一个用户可以“选择公开它”。您可以在Apache站点上找到它