Hadoop 向具有更大硬盘驱动器的datanode添加新磁盘

Hadoop 向具有更大硬盘驱动器的datanode添加新磁盘,hadoop,hdfs,hard-drive,Hadoop,Hdfs,Hard Drive,我正在运行一个带有一些datanode的hdfs,每个datanode都有8 x 1TB的硬盘驱动程序 我想为每个datanode添加2 x 2TB的硬盘驱动程序。我知道如何为datanode添加新的硬驱动程序,但我混淆了新的硬驱动程序比旧的硬驱动程序大,所以它可能在datanode上的硬驱动程序之间存在数据分布问题 我认为最好在2TB硬盘驱动程序上创建2个逻辑驱动程序(1TB),然后将其装载到操作系统上,这样每个数据节点路径的卷都是相同的 我需要一些建议。感谢阅读 如果在datanode中有大

我正在运行一个带有一些datanode的hdfs,每个datanode都有8 x 1TB的硬盘驱动程序

我想为每个datanode添加2 x 2TB的硬盘驱动程序。我知道如何为datanode添加新的硬驱动程序,但我混淆了新的硬驱动程序比旧的硬驱动程序大,所以它可能在datanode上的硬驱动程序之间存在数据分布问题

我认为最好在2TB硬盘驱动程序上创建2个逻辑驱动程序(1TB),然后将其装载到操作系统上,这样每个数据节点路径的卷都是相同的


我需要一些建议。感谢阅读

如果在datanode中有大小不一的磁盘,则较小的磁盘比最大的磁盘填充速度更快是一个常见问题。这是因为datanode中的默认卷选择策略是循环策略。基本上,datanode将依次向每个磁盘写入新数据,而不考虑磁盘的大小或可用空间

有一种可选的卷选择策略,非常适合在具有混合大小磁盘的datanodes上使用,称为AvailableSpaceVolumeChosingPolicy-我不确定您使用的是什么Hadoop发行版,但CDH文档是:


如果更改为该策略,则默认情况下,75%的新写入将转到未充分使用的磁盘,直到它们赶上其他磁盘,然后将返回到循环写入。

8个旧磁盘使用了80%。添加新磁盘后,我在CDH上运行了平衡器。我原以为每个datanode都会将数据从旧磁盘复制到新磁盘以达到平衡,但事实并非如此。你对这个问题有什么想法吗?非常感谢你!平衡器不会在datanode内的磁盘之间移动数据。它只在数据节点之间移动数据。据我所知,无法在datanode内自动将数据从一个磁盘移动到另一个磁盘。在磁盘容量达到80%的情况下,如果您移动到AvailableSpace,则一切正常,新磁盘将开始填满。Hadoop 2.6不支持此功能。我在Hadoop 3.0alpha中看到了它。我决定使用手动方法。