HBase表的大小比hadoop hdfs中的文件大得多
最近我使用hadoop批量加载将数据放入hbase 首先,在hadoop HDFS中调用HDFS API将数据写入文件,共7000000行数据,大小为503MB。 其次,我使用org.apache.hadoop.hbase.mapreduce.ImportTsv和org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles将数据放入hbase 我做的最重要的事情是使用bulkload工具将数据放入hbase,在完成bulkload之后,我发现hbase表是1.96GB。hdfs复制为1。HBase表的大小比hadoop hdfs中的文件大得多,hadoop,hbase,hdfs,Hadoop,Hbase,Hdfs,最近我使用hadoop批量加载将数据放入hbase 首先,在hadoop HDFS中调用HDFS API将数据写入文件,共7000000行数据,大小为503MB。 其次,我使用org.apache.hadoop.hbase.mapreduce.ImportTsv和org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles将数据放入hbase 我做的最重要的事情是使用bulkload工具将数据放入hbase,在完成bulkload之后,我发现hb
我不知道为什么 在存储数据时会有一些开销,因为您必须存储列限定符等的名称,但开销不是4倍。我有一些想法,但绝对不介意听到更多关于数据性质的细节,也许还有统计数据
- 您的表中是否启用了压缩功能?如果数据是在HDFS中压缩的,但在加载后,它没有被压缩,这可能会导致问题
- 也许HBase出于任何原因都不尊重您的复制因素。去做一个hadoop fs-dus/path/to/hbase/table/data看看会返回什么
- 你的专栏限定词很大吗?例如,
非常小,不会占用太多空间,但是colfam1:abc
将在全局中占据相当大的空间李>colfam1:abcdefghijklmnopqrstuvwxyz