将数据仓库星形架构映射到HBASE_Hbase_Data Warehouse_Star Schema_Dimensional Modeling_Aggregates

将数据仓库星形架构映射到HBASE

hbase

将数据仓库星形架构映射到HBASE,hbase,data-warehouse,star-schema,dimensional-modeling,aggregates,Hbase,Data Warehouse,Star Schema,Dimensional Modeling,Aggregates,假设我在数据仓库设置中有一个星型模式。有一个非常非常长的事实表（想想数十亿到万亿行）和几个低基数维表（想想100维表）。每个事实表都有外键指向维度表主键的是位图索引。每个维度表主键也被位图索引。这是所有的快速连接。都很标准假设数据仓库开始显示性能下降。时间到了事实表越长，从位图联接返回结果的时间越长。业务需求是事实表不断增长（我们不能将超过一年的数据移动到存档存储）我正在考虑以下解决方案：哈希分区事实表，但这只是暂时搁置了不可避免的增长问题数据库将物理星型架构数据库划分为多个架构/

假设我在数据仓库设置中有一个星型模式。有一个非常非常长的事实表（想想数十亿到万亿行）和几个低基数维表（想想100维表）。每个事实表都有外键指向维度表主键的是位图索引。每个维度表主键也被位图索引。这是所有的快速连接。都很标准

假设数据仓库开始显示性能下降。时间到了事实表越长，从位图联接返回结果的时间越长。业务需求是事实表不断增长（我们不能将超过一年的数据移动到存档存储）

我正在考虑以下解决方案：

哈希分区事实表，但这只是暂时搁置了不可避免的增长问题

数据库将物理星型架构数据库划分为多个架构/数据库。1..N事实表及其维度副本，每个都包含通过散列（1..N）函数分配给它们的数据，散列（1..N）函数在单独的ETL暂存数据库中执行，以确定事实行（由ETL过程产生）将进入哪个数据库/模式。如果任何维度发生更改，请将更改复制到对应维度的其他数据库。同样，这并不是一个永久的解决办法

折叠维度并将所有维度值直接存储在事实表中。然后，将事实表导入Hadoop上的HBASE。您将得到一个庞大的HBASE表，即没有维度表的键值存储。我之所以这样做，是因为连接在HBASE中是成本禁止的（因此没有事实证明连接是维度连接，只是在维度列上强制执行维度值）

以前有人这样做过吗

有人有解决方案3的建议吗

HBASE解决方案在通过快速读取进行扩展方面是否最佳

至于写操作，我不喜欢快速写操作，因为它们会在非工作时间以批处理的方式完成

如果有人选择了解决方案1或2，是否有人使用了（如果有更多的分区，则会动态创建哈希键，以避免像在普通的旧哈希中那样重新映射）？在没有完全重新映射的情况下，分区数量的动态增长可能不是一个选项（就分区表而言，我还没有看到在实践中这样做），因此在我看来，任何分区解决方案都会导致伸缩问题

将具有多维度的巨型事实表（传统的DW星形模式）移动到HBASE巨型无维度表有什么想法、建议和经验

相关问题：

如何将数据仓库中传统上驻留在物化视图中的数据集合（或者作为单独的事实表链接到与最细粒度事实表相同的维度，即每小时/每天/每周/每月，其中基本事实表为每小时）聚合到HBASE

我的想法是，由于HBASE中没有具体化的视图，因此聚合数据集合存储为HBASE表，每当对最细粒度、最低级别的事实表进行更改时，这些表都会被更新/插入

对HBASE中的聚合表有什么想法吗？

是否有人使用配置单元脚本在更新存储有聚合数据的辅助HBASE表中的聚合列数据（即每日聚合事实表、每周聚合事实表、每月聚合事实表）时，从本质上模拟物化视图的行为更改最细粒度的事实数据表？

对于通用数据仓库（查询时间非常短）来说，HBase不是一个好选择任何单个表都只允许您沿一个维度或沿一条路径向下钻取维度（如果您将右组合键设计为右）。它是不可撤销的，但不是现成的

在Hadoop上提供高性能SQL有几种方法（例如or），但它们无法提供像、、这样的大型并行数据库的性能，而类似的维度将在HBase中定义为keyrow。该值是您的度量值。如果事实表是无事实的，则HBase行中的值可以为null

依靠互联网上的贫乏资源，我认为这个想法是：

**RowKey**                                **Value**
DimensionA                             XX
DimensionA:DimensionB                  XX
DimensionB:DimensionC                  XX
DimenesionA:DimensionB:DimenesionC:   XXX

它适合你的问题吗

[parallel processing]相关文章推荐

随机文章推荐