Data modeling 数据仓库建模

Data modeling 数据仓库建模,data-modeling,datamodel,data-vault,Data Modeling,Datamodel,Data Vault,假设采用以下数据体系结构: 源系统->数据仓库(使用数据仓库模型)->数据虚拟化->消费层(例如BI工具和报告) 我了解到,对于data vault,一个关键原则是加载原始数据并保留来自所有来源的记录,这样就不会出于可追溯性/审计目的进行重复数据消除或转换。如果这是真的,转换将在何处发生?是的,这是真的,“原始”数据保险库保留加载时在源系统上的记录 但还有另一个概念,“商业”数据仓库。这就是所有逻辑和转换发生的地方。业务数据保险库不是原始数据保险库的完整副本,但您可以创建hub/link/sat

假设采用以下数据体系结构: 源系统->数据仓库(使用数据仓库模型)->数据虚拟化->消费层(例如BI工具和报告)

我了解到,对于data vault,一个关键原则是加载原始数据并保留来自所有来源的记录,这样就不会出于可追溯性/审计目的进行重复数据消除或转换。如果这是真的,转换将在何处发生?

是的,这是真的,“原始”数据保险库保留加载时在源系统上的记录

但还有另一个概念,“商业”数据仓库。这就是所有逻辑和转换发生的地方。业务数据保险库不是原始数据保险库的完整副本,但您可以创建hub/link/sat/pit/bridge来实现逻辑以满足您的需要


这样,从长远来看,它会帮助你。例如,如果您明年需要更改业务规则,那么您仍然拥有过去特定时间特定源系统的原始数据。如果您的逻辑有缺陷,您仍然拥有原始数据。

根据我的经验,通常您拥有以下体系结构:

  • 原始源(从OLTP数据源复制)
  • 暂存(现在作为数据湖中的持久暂存区,因为它比关系数据库便宜)
  • 原始Vault(应用所谓的硬规则,如数据类型更改)
  • 业务保险库(应用所谓的软规则、所有业务逻辑、聚合、连接等)
  • 信息集市(数据集市有时是虚拟化的,但并不总是……通常是星形/雪花模式)
  • 立方体/表格模型
  • 双刀
  • 有关原始Vault和业务Vault之间差异的详细信息,您可以在此处找到: