Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hbase中Column系列和版本的性能影响_Hbase - Fatal编程技术网

Hbase中Column系列和版本的性能影响

Hbase中Column系列和版本的性能影响,hbase,Hbase,在Hbase中,包含30列的表 但是有一个单柱族 create 'my_table', { NAME => 'my_family', VERSIONS => 5 } 要将版本增加到10000吗 create 'my_table', { NAME => 'my_family', VERSIONS => 10000 } 将版本更改为10K时,它将更改为所有列,但 can要求仅更改为2列 在这两种情况下会对性能产生什么影响 创建两个不同的列族并相应地更改版本 更改了所有列的

在Hbase中,包含30列的表 但是有一个单柱族

create 'my_table', { NAME => 'my_family', VERSIONS => 5 }
要将版本增加到10000吗

create 'my_table', { NAME => 'my_family', VERSIONS => 10000 }
将版本更改为10K时,它将更改为所有列,但 can要求仅更改为2列

在这两种情况下会对性能产生什么影响

  • 创建两个不同的列族并相应地更改版本

  • 更改了所有列的版本


  • 最好创建单独的列族,为其他28列保留不必要的版本,这将对性能产生不利影响,因为Hstore文件的大小增加了 Hbase数据大小的增加将增加区域数,从而增加每个区域服务器的映射器数

    因此,通过创建两列族存储文件大小,将不会存储不必要的数据,有助于在压缩过程中减少拆分。IO性能将得到改善

    如果有两个列族A和B,且A的基数为100万,B的基数为10亿,则A的数据将分布在多个区域和区域服务器上。这会降低对列族A的大规模扫描的效率

    区域是按照行键分布的,因此即使A有100万行并且在行键之间分布良好。然后是的,您可能需要扫描所有这些区域。我认为这不会产生太大影响,但这只能通过为这两个高版本列使用不同的表来避免