将数据仓库星形架构映射到HBASE

将数据仓库星形架构映射到HBASE,hbase,data-warehouse,star-schema,dimensional-modeling,aggregates,Hbase,Data Warehouse,Star Schema,Dimensional Modeling,Aggregates,假设我在数据仓库设置中有一个星型模式。 有一个非常非常长的事实表(想想数十亿到万亿行)和几个低基数维表(想想100维表)。每个事实表都有外键 指向维度表主键的是位图索引。每个维度表主键也被位图索引。这是所有的快速连接。都很标准 假设数据仓库开始显示性能下降。时间到了 事实表越长,从位图联接返回结果的时间越长。业务需求是事实表不断增长(我们不能将超过一年的数据移动到存档存储) 我正在考虑以下解决方案: 哈希分区事实表,但这只是暂时搁置了不可避免的增长问题 数据库将物理星型架构数据库划分为多个架构/

假设我在数据仓库设置中有一个星型模式。 有一个非常非常长的事实表(想想数十亿到万亿行)和几个低基数维表(想想100维表)。每个事实表都有外键 指向维度表主键的是位图索引。每个维度表主键也被位图索引。这是所有的快速连接。都很标准

假设数据仓库开始显示性能下降。时间到了 事实表越长,从位图联接返回结果的时间越长。业务需求是事实表不断增长(我们不能将超过一年的数据移动到存档存储)

我正在考虑以下解决方案:

  • 哈希分区事实表,但这只是暂时搁置了不可避免的增长问题
  • 数据库将物理星型架构数据库划分为多个架构/数据库。1..N事实表及其维度副本,每个都包含通过散列(1..N)函数分配给它们的数据,散列(1..N)函数在单独的ETL暂存数据库中执行,以确定事实行(由ETL过程产生)将进入哪个数据库/模式。如果任何维度发生更改,请将更改复制到对应维度的其他数据库。同样,这并不是一个永久的解决办法
  • 折叠维度并将所有维度值直接存储在事实表中。 然后,将事实表导入Hadoop上的HBASE。您将得到一个庞大的HBASE表,即没有维度表的键值存储。我之所以这样做,是因为连接在HBASE中是成本禁止的(因此没有事实证明连接是维度连接,只是在维度列上强制执行维度值)
  • 以前有人这样做过吗

    有人有解决方案3的建议吗

    HBASE解决方案在通过快速读取进行扩展方面是否最佳

    至于写操作,我不喜欢快速写操作,因为它们会在非工作时间以批处理的方式完成

    如果有人选择了解决方案1或2,是否有人使用了(如果有更多的分区,则会动态创建哈希键,以避免像在普通的旧哈希中那样重新映射)?在没有完全重新映射的情况下,分区数量的动态增长可能不是一个选项(就分区表而言,我还没有看到在实践中这样做),因此在我看来,任何分区解决方案都会导致伸缩问题

    将具有多维度的巨型事实表(传统的DW星形模式)移动到HBASE巨型无维度表有什么想法、建议和经验

    相关问题:

    如何将数据仓库中传统上驻留在物化视图中的数据集合(或者作为单独的事实表链接到与最细粒度事实表相同的维度,即每小时/每天/每周/每月,其中基本事实表为每小时)聚合到HBASE

    我的想法是,由于HBASE中没有具体化的视图,因此聚合数据集合存储为HBASE表,每当对最细粒度、最低级别的事实表进行更改时,这些表都会被更新/插入

    对HBASE中的聚合表有什么想法吗?
    是否有人使用配置单元脚本在更新存储有聚合数据的辅助HBASE表中的聚合列数据(即每日聚合事实表、每周聚合事实表、每月聚合事实表)时,从本质上模拟物化视图的行为更改最细粒度的事实数据表?

    对于通用数据仓库(查询时间非常短)来说,HBase不是一个好选择 任何单个表都只允许您沿一个维度或沿一条路径向下钻取维度(如果您将右组合键设计为右)。 它是不可撤销的,但不是现成的


    在Hadoop上提供高性能SQL有几种方法(例如or),但它们无法提供像、、这样的大型并行数据库的性能,而类似的维度将在HBase中定义为keyrow。该值是您的度量值。如果事实表是无事实的,则HBase行中的值可以为null

    依靠互联网上的贫乏资源,我认为这个想法是:

    **RowKey**                                **Value**
    DimensionA                             XX
    DimensionA:DimensionB                  XX
    DimensionB:DimensionC                  XX
    DimenesionA:DimensionB:DimenesionC:   XXX
    

    它适合你的问题吗