“释放”;“未使用DFS”;hadoop中的空间
我正在尝试用hadoop hdfs加载数据。在一些测试运行之后,当检查hadoop web ui时,我意识到在标题“Non-DFS used”下消耗了大量空间。事实上,“未使用DFS”比“使用DFS”更重要。因此,几乎一半的集群被非DFS数据占用 即使在重新格式化namenode并重新启动后,也不会释放此“非DFS”空间 此外,我无法找到存储此“非DFS”数据的目录,因此我可以手动删除这些文件 我在网上读了很多关于同一问题的人的帖子,但没有一个得到明确的答案“释放”;“未使用DFS”;hadoop中的空间,hadoop,hdfs,Hadoop,Hdfs,我正在尝试用hadoop hdfs加载数据。在一些测试运行之后,当检查hadoop web ui时,我意识到在标题“Non-DFS used”下消耗了大量空间。事实上,“未使用DFS”比“使用DFS”更重要。因此,几乎一半的集群被非DFS数据占用 即使在重新格式化namenode并重新启动后,也不会释放此“非DFS”空间 此外,我无法找到存储此“非DFS”数据的目录,因此我可以手动删除这些文件 我在网上读了很多关于同一问题的人的帖子,但没有一个得到明确的答案 清空这个“非DFS”空间有这么难吗?
清空这个“非DFS”空间有这么难吗?或者我不应该删除它?如何释放此空间?在HDFS中,非DFS是数据节点中未被HDFS数据占用的存储 查看datanode
hdfs site.xml
,属性中设置的目录dfs.data.dir或dfs.datanode.data.dir将用于dfs。datanode中使用的所有其他存储将被视为非DFS存储
您可以通过从datanode计算机中删除任何不需要的文件(如hadoop日志、任何与hadoop无关的文件(磁盘上的其他信息)等来释放它。这不能通过使用任何hadoop命令来完成
使用的非DFS通过以下公式计算:
未使用DFS=(总磁盘空间-保留空间)-剩余空间-已使用DFS
在下面找到类似的问题
一段时间以来,我一直面临着同样的问题,我的非DFS使用量已经达到了大约13TB!!!我尝试了许多纱线、TEZ、MR2等的重新配置,但没有成功。相反,使用率一直在增长,我的集群使用率几乎达到了90%。这反过来又导致在运行脚本和重新尝试(失败)配置系统时出现大量顶点故障
不过,对我来说有效的(有趣的故事)只是从Ambari简单地重新启动所有数据节点!!!它将非DFS使用量从13 TB减少到略高于6 TB。我的资源管理器已经运行了大约160天,我猜重新启动数据节点可能刚刚清除了日志文件。Ok,那么这些数据是什么?日志文件?是否还有其他数据被视为非DFS数据?所以我应该删除namenode和datanode中的所有日志。另外,我只是猜测,如果Hadoop Web UI可以说有19.6GB的“非DFS”数据,那么它是以某种特定的方式测量的,也就是说,它一定是在一些目录中测量的???在哪个磁盘中存储数据在datanode中,请在该磁盘中检查其他文件。它可能是文件系统(OS文件)、日志、其他信息等。它在公式中给出的所有数据节点中进行测量。我面临同样的问题。有没有什么解决方案可以代替重启HDFS?