Python HDFS提供了不正确的文件大小

Python HDFS提供了不正确的文件大小,python,hadoop,hdfs,python-3.5,webhdfs,Python,Hadoop,Hdfs,Python 3.5,Webhdfs,我正在尝试使用Python3.5和hdfs库从hdfs获取文件大小 我明白了 {'spaceQuota': -1, 'directoryCount': 0, 'spaceConsumed': 103566, 'length': 34522, 'quota': -1, 'fileCount': 1} 因此,根据此消息,文件大小为103 KB 但是当我看http://hostName:50070/explorer.html#/path/to/file/ 我看到文件大小是33.71kb!这怎么可能

我正在尝试使用Python3.5和hdfs库从hdfs获取文件大小

我明白了

{'spaceQuota': -1, 'directoryCount': 0, 'spaceConsumed': 103566, 'length': 34522, 'quota': -1, 'fileCount': 1}
因此,根据此消息,文件大小为
103 KB

但是当我看
http://hostName:50070/explorer.html#/path/to/file/


我看到文件大小是
33.71kb
!这怎么可能?有没有其他方法可以在hdfs中获得适当的文件大小?目录的大小如何?

您看到的是正确的

请注意length参数,它显示的值接近您希望看到的33.71KB。长度在hadoop文档中定义为文件中的字节数。所消耗的空间是占用的磁盘空间


这些不一定是一致的,因为文件系统中的块大小和开销(我对hadoop不太熟悉,不知道具体的原因)

实际文件大小是33.71 KB,hdfs上的大小是103 KB。 HDFS复制因子为3,这意味着HDFS上的文件大小变为实际文件大小的3倍

{'spaceQuota': -1, 'directoryCount': 0, 'spaceConsumed': 103566, 'length': 34522, 'quota': -1, 'fileCount': 1}