Hadoop 向具有更大硬盘驱动器的datanode添加新磁盘_Hadoop_Hdfs_Hard Drive

Hadoop 向具有更大硬盘驱动器的datanode添加新磁盘

hadoop

Hadoop 向具有更大硬盘驱动器的datanode添加新磁盘,hadoop,hdfs,hard-drive,Hadoop,Hdfs,Hard Drive,我正在运行一个带有一些datanode的hdfs，每个datanode都有8 x 1TB的硬盘驱动程序我想为每个datanode添加2 x 2TB的硬盘驱动程序。我知道如何为datanode添加新的硬驱动程序，但我混淆了新的硬驱动程序比旧的硬驱动程序大，所以它可能在datanode上的硬驱动程序之间存在数据分布问题我认为最好在2TB硬盘驱动程序上创建2个逻辑驱动程序（1TB），然后将其装载到操作系统上，这样每个数据节点路径的卷都是相同的我需要一些建议。感谢阅读如果在datanode中有大

我正在运行一个带有一些datanode的hdfs，每个datanode都有8 x 1TB的硬盘驱动程序

我想为每个datanode添加2 x 2TB的硬盘驱动程序。我知道如何为datanode添加新的硬驱动程序，但我混淆了新的硬驱动程序比旧的硬驱动程序大，所以它可能在datanode上的硬驱动程序之间存在数据分布问题

我认为最好在2TB硬盘驱动程序上创建2个逻辑驱动程序（1TB），然后将其装载到操作系统上，这样每个数据节点路径的卷都是相同的

我需要一些建议。感谢阅读

如果在datanode中有大小不一的磁盘，则较小的磁盘比最大的磁盘填充速度更快是一个常见问题。这是因为datanode中的默认卷选择策略是循环策略。基本上，datanode将依次向每个磁盘写入新数据，而不考虑磁盘的大小或可用空间

有一种可选的卷选择策略，非常适合在具有混合大小磁盘的datanodes上使用，称为AvailableSpaceVolumeChosingPolicy-我不确定您使用的是什么Hadoop发行版，但CDH文档是：

如果更改为该策略，则默认情况下，75%的新写入将转到未充分使用的磁盘，直到它们赶上其他磁盘，然后将返回到循环写入。

8个旧磁盘使用了80%。添加新磁盘后，我在CDH上运行了平衡器。我原以为每个datanode都会将数据从旧磁盘复制到新磁盘以达到平衡，但事实并非如此。你对这个问题有什么想法吗？非常感谢你！平衡器不会在datanode内的磁盘之间移动数据。它只在数据节点之间移动数据。据我所知，无法在datanode内自动将数据从一个磁盘移动到另一个磁盘。在磁盘容量达到80%的情况下，如果您移动到AvailableSpace，则一切正常，新磁盘将开始填满。Hadoop 2.6不支持此功能。我在Hadoop 3.0alpha中看到了它。我决定使用手动方法。