如何在Hadoop上实现数据沿袭?

如何在Hadoop上实现数据沿袭?,hadoop,architecture,finance,data-lineage,enterprise-architecture,Hadoop,Architecture,Finance,Data Lineage,Enterprise Architecture,我们在金融领域实施的业务流程很少。监管机构的要求(不幸的是,不是很具体)是要有一个用于审计目的的数据谱系 该流包含两个部分:同步和异步。同步部分是一种支付尝试,包含关于销售点、客户和商品的大量信息。异步部分是一个批处理过程,它每小时向信用评估数据模型提供一部分新计算的变量。这些变量可能包括一些聚合,如余额和历史交易的链接 为了计算异步部分,我们从多个关系数据库摄取数据,并以原始格式(csv格式的表中的行)将它们存储在HDFS中 在HDFS上存储数据时,会触发基于Spring XD的作业,该作业计

我们在金融领域实施的业务流程很少。监管机构的要求(不幸的是,不是很具体)是要有一个用于审计目的的数据谱系

该流包含两个部分:同步和异步。同步部分是一种支付尝试,包含关于销售点、客户和商品的大量信息。异步部分是一个批处理过程,它每小时向信用评估数据模型提供一部分新计算的变量。这些变量可能包括一些聚合,如余额和历史交易的链接

为了计算异步部分,我们从多个关系数据库摄取数据,并以原始格式(csv格式的表中的行)将它们存储在HDFS中

在HDFS上存储数据时,会触发基于Spring XD的作业,该作业计算一些聚合并生成同步部分的数据

我们有关系数据、关于HDFS和MapReduce作业的原始数据,它们依赖于描述SpringXD中实现的相关语义和转换的POJO

因此,问题是如何在上述场景中处理审计? 我们需要在任何时间点能够解释为什么做出特定决策,并且能够解释策略中使用的每个变量(同步或近实时流)是如何计算的

我查看了现有的Hadoop堆栈,目前似乎没有任何工具能够提供良好的企业级审计功能

我的想法是从包括>

  • 包含所有业务术语的业务术语表
  • 操作和技术元数据—将每个条目的转换执行记录到单独的存储中
  • 记录对业务逻辑的更改(使用保存业务规则和转换的版本控制中的数据)

  • 任何建议或分享您的经验将不胜感激

    目前,Cloudera为大数据空间中的数据沿袭/数据治理制定了行业标准

    词汇表、元数据和历史运行(版本)查询都可以简化

    我确实意识到,当你提出这个问题时,其中一些可能还没有落实到位,但现在肯定已经落实到位了



    免责声明:我是Cloudera的员工

    目前,Cloudera为大数据空间中的数据沿袭/数据治理制定了行业标准

    词汇表、元数据和历史运行(版本)查询都可以简化

    我确实意识到,当你提出这个问题时,其中一些可能还没有落实到位,但现在肯定已经落实到位了



    免责声明:我是Cloudera的员工

    请在重新回滚之前阅读enterprise architect的标签文本。它指的是Sparx系统中的UML建模工具,而不是架构角色。如果这个问题与UML工具有某种关联,请解释一下。@Uffe抱歉在这里被搞糊涂了。我以为是企业架构。顺便说一句,这只是一个回滚而不是重新回滚:)请在重新回滚之前阅读enterprise architect的标记文本。它指的是Sparx系统中的UML建模工具,而不是架构角色。如果这个问题与UML工具有某种关联,请解释一下。@Uffe抱歉在这里被搞糊涂了。我以为是企业架构。顺便说一句,这只是一次回滚,而不是重新回滚:)