Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
“释放”;“未使用DFS”;hadoop中的空间_Hadoop_Hdfs - Fatal编程技术网

“释放”;“未使用DFS”;hadoop中的空间

“释放”;“未使用DFS”;hadoop中的空间,hadoop,hdfs,Hadoop,Hdfs,我正在尝试用hadoop hdfs加载数据。在一些测试运行之后,当检查hadoop web ui时,我意识到在标题“Non-DFS used”下消耗了大量空间。事实上,“未使用DFS”比“使用DFS”更重要。因此,几乎一半的集群被非DFS数据占用 即使在重新格式化namenode并重新启动后,也不会释放此“非DFS”空间 此外,我无法找到存储此“非DFS”数据的目录,因此我可以手动删除这些文件 我在网上读了很多关于同一问题的人的帖子,但没有一个得到明确的答案 清空这个“非DFS”空间有这么难吗?

我正在尝试用hadoop hdfs加载数据。在一些测试运行之后,当检查hadoop web ui时,我意识到在标题“Non-DFS used”下消耗了大量空间。事实上,“未使用DFS”比“使用DFS”更重要。因此,几乎一半的集群被非DFS数据占用

即使在重新格式化namenode并重新启动后,也不会释放此“非DFS”空间

此外,我无法找到存储此“非DFS”数据的目录,因此我可以手动删除这些文件

我在网上读了很多关于同一问题的人的帖子,但没有一个得到明确的答案


清空这个“非DFS”空间有这么难吗?或者我不应该删除它?如何释放此空间?

在HDFS中,非DFS是数据节点中未被HDFS数据占用的存储

查看datanode
hdfs site.xml
,属性中设置的目录dfs.data.dirdfs.datanode.data.dir将用于dfs。datanode中使用的所有其他存储将被视为非DFS存储

您可以通过从datanode计算机中删除任何不需要的文件(如hadoop日志、任何与hadoop无关的文件(磁盘上的其他信息)等来释放它。这不能通过使用任何hadoop命令来完成

使用的非DFS通过以下公式计算:

未使用DFS=(总磁盘空间-保留空间)-剩余空间-已使用DFS

在下面找到类似的问题



一段时间以来,我一直面临着同样的问题,我的非DFS使用量已经达到了大约13TB!!!我尝试了许多纱线、TEZ、MR2等的重新配置,但没有成功。相反,使用率一直在增长,我的集群使用率几乎达到了90%。这反过来又导致在运行脚本和重新尝试(失败)配置系统时出现大量顶点故障


不过,对我来说有效的(有趣的故事)只是从Ambari简单地重新启动所有数据节点!!!它将非DFS使用量从13 TB减少到略高于6 TB。我的资源管理器已经运行了大约160天,我猜重新启动数据节点可能刚刚清除了日志文件。

Ok,那么这些数据是什么?日志文件?是否还有其他数据被视为非DFS数据?所以我应该删除namenode和datanode中的所有日志。另外,我只是猜测,如果Hadoop Web UI可以说有19.6GB的“非DFS”数据,那么它是以某种特定的方式测量的,也就是说,它一定是在一些目录中测量的???在哪个磁盘中存储数据在datanode中,请在该磁盘中检查其他文件。它可能是文件系统(OS文件)、日志、其他信息等。它在公式中给出的所有数据节点中进行测量。我面临同样的问题。有没有什么解决方案可以代替重启HDFS?