如何在Hadoop上实现数据沿袭？_Hadoop_Architecture_Finance_Data Lineage_Enterprise Architecture

如何在Hadoop上实现数据沿袭？

hadoop architecture

如何在Hadoop上实现数据沿袭？,hadoop,architecture,finance,data-lineage,enterprise-architecture,Hadoop,Architecture,Finance,Data Lineage,Enterprise Architecture,我们在金融领域实施的业务流程很少。监管机构的要求（不幸的是，不是很具体）是要有一个用于审计目的的数据谱系该流包含两个部分：同步和异步。同步部分是一种支付尝试，包含关于销售点、客户和商品的大量信息。异步部分是一个批处理过程，它每小时向信用评估数据模型提供一部分新计算的变量。这些变量可能包括一些聚合，如余额和历史交易的链接为了计算异步部分，我们从多个关系数据库摄取数据，并以原始格式（csv格式的表中的行）将它们存储在HDFS中在HDFS上存储数据时，会触发基于Spring XD的作业，该作业计

我们在金融领域实施的业务流程很少。监管机构的要求（不幸的是，不是很具体）是要有一个用于审计目的的数据谱系

该流包含两个部分：同步和异步。同步部分是一种支付尝试，包含关于销售点、客户和商品的大量信息。异步部分是一个批处理过程，它每小时向信用评估数据模型提供一部分新计算的变量。这些变量可能包括一些聚合，如余额和历史交易的链接

为了计算异步部分，我们从多个关系数据库摄取数据，并以原始格式（csv格式的表中的行）将它们存储在HDFS中

在HDFS上存储数据时，会触发基于Spring XD的作业，该作业计算一些聚合并生成同步部分的数据

我们有关系数据、关于HDFS和MapReduce作业的原始数据，它们依赖于描述SpringXD中实现的相关语义和转换的POJO

因此，问题是如何在上述场景中处理审计？我们需要在任何时间点能够解释为什么做出特定决策，并且能够解释策略中使用的每个变量（同步或近实时流）是如何计算的

我查看了现有的Hadoop堆栈，目前似乎没有任何工具能够提供良好的企业级审计功能

我的想法是从包括>

包含所有业务术语的业务术语表

操作和技术元数据—将每个条目的转换执行记录到单独的存储中

记录对业务逻辑的更改（使用保存业务规则和转换的版本控制中的数据）

任何建议或分享您的经验将不胜感激

目前，Cloudera为大数据空间中的数据沿袭/数据治理制定了行业标准

词汇表、元数据和历史运行（版本）查询都可以简化

我确实意识到，当你提出这个问题时，其中一些可能还没有落实到位，但现在肯定已经落实到位了

免责声明：我是Cloudera的员工

目前，Cloudera为大数据空间中的数据沿袭/数据治理制定了行业标准

词汇表、元数据和历史运行（版本）查询都可以简化

我确实意识到，当你提出这个问题时，其中一些可能还没有落实到位，但现在肯定已经落实到位了

免责声明：我是Cloudera的员工

请在重新回滚之前阅读enterprise architect的标签文本。它指的是Sparx系统中的UML建模工具，而不是架构角色。如果这个问题与UML工具有某种关联，请解释一下。@Uffe抱歉在这里被搞糊涂了。我以为是企业架构。顺便说一句，这只是一个回滚而不是重新回滚：）请在重新回滚之前阅读enterprise architect的标记文本。它指的是Sparx系统中的UML建模工具，而不是架构角色。如果这个问题与UML工具有某种关联，请解释一下。@Uffe抱歉在这里被搞糊涂了。我以为是企业架构。顺便说一句，这只是一次回滚，而不是重新回滚：）