Hadoop 我在哪里可以看到最近的HDFS使用统计数据(文件夹、文件、时间戳)?

Hadoop 我在哪里可以看到最近的HDFS使用统计数据(文件夹、文件、时间戳)?,hadoop,hdfs,cloudera,diskspace,Hadoop,Hdfs,Cloudera,Diskspace,在过去的10天里,我一直在HDFS上看到大量的磁盘使用。正如我在Cloudera Manager的“主机”选项卡上的DataNode主机和HDFS服务使用率的磁盘使用率图表中所看到的,HDFS服务使用率几乎翻了三倍,从~7TB增加到~20TB。起初,我认为这是因为我在这10天的第6天升级到CM和CDH时出错了,但意识到这之前就已经开始发生了 我首先检查了Cloudera Manager上的文件浏览器,但没有看到那里的大小数字与之前的大小数字之间的差异。我还有过去4天的磁盘使用情况报告,他们说没有

在过去的10天里,我一直在HDFS上看到大量的磁盘使用。正如我在Cloudera Manager的“主机”选项卡上的DataNode主机和HDFS服务使用率的磁盘使用率图表中所看到的,HDFS服务使用率几乎翻了三倍,从~7TB增加到~20TB。起初,我认为这是因为我在这10天的第6天升级到CM和CDH时出错了,但意识到这之前就已经开始发生了

我首先检查了Cloudera Manager上的文件浏览器,但没有看到那里的大小数字与之前的大小数字之间的差异。我还有过去4天的磁盘使用情况报告,他们说没有增加

运行
hdfs dfsadmin-report
也会返回相同的结果

Linux上的dfs文件夹确认了不断增加的使用率,但我不知道更改了什么,因为有数百万个文件,我不知道如何检查数千个嵌套文件夹中最后修改的文件。即使我找到了它们,我也不知道HDFS上的文件是什么

就在最近,我被告知HDFS上的另一个用户正在分割他们的大文件。他们拥有将近三分之二的数据。如果他们将它们分割成比HDFS块大小小得多的块,会导致如此大的增加吗?如果是,为什么我不能在浏览器/报表上看到它


有没有办法检查HDFS中最近修改了哪些文件夹和文件,或者我可以检查/执行哪些操作?欢迎提供任何建议或评论。

为了检查HDFS活动,Cloudera Navigator提供了有关HDFS中记录的所有事件的优秀信息

登录到Navigator后,检查audits选项卡。它还允许我们过滤诸如删除、ipaddress、用户名等活动


正常搜索页面还为我们提供了过滤块大小(是否<256Mb,>256Mb)、文件或目录、源类型、路径、复制计数等功能。

为了检查HDFS活动,Cloudera Navigator提供了有关HDFS中记录的所有事件的优秀信息

登录到Navigator后,检查audits选项卡。它还允许我们过滤诸如删除、ipaddress、用户名等活动


普通搜索页面还提供了过滤块大小(是否<256Mb,>256Mb)、文件或目录、源类型、路径、复制计数等功能。

我不知道您使用的是哪个版本的Cloudera Manager,但您是否尝试过?它允许您使用直观的GUI快速分析HDF。CM版本是5.10.0,所以是的,我有Cloudera Navigator。但在搜索部分似乎并没有关于文件的信息,也就是说,我几乎找不到关于上周、一月甚至一年内创建的文件的结果。审计科很好。也许我做错了什么事,我会仔细调查的。我不确定它以前是否运行过,但我确定Navigator在升级过程中处于运行状态。我不知道您使用的是哪个版本的Cloudera Manager,但您是否尝试过?它允许您使用直观的GUI快速分析HDF。CM版本是5.10.0,所以是的,我有Cloudera Navigator。但在搜索部分似乎并没有关于文件的信息,也就是说,我几乎找不到关于上周、一月甚至一年内创建的文件的结果。审计科很好。也许我做错了什么事,我会仔细调查的。我不确定它以前是否运行过,但我确定Navigator在升级过程中已启动。