Encryption 为大数据系统设计数据供应策略?

Encryption 为大数据系统设计数据供应策略?,encryption,bigdata,provisioning,data-lake,Encryption,Bigdata,Provisioning,Data Lake,我正在大数据系统中设计数据供应模块。数据供应被描述为 从数据湖向下游系统提供数据的过程称为数据供应;它为数据消费者提供了对数据池中数据资产的安全访问,并允许他们获取这些数据。数据交付、访问和出口都是数据供应的同义词,可以在此上下文中使用 在。我正在寻找一些设计这个模块的标准,包括如何保护数据,如何识别一些数据是来自系统的数据,等等。我在谷歌上搜索过,但没有多少与该关键字相关的结果。你能给我一些建议或者你自己的经验吗?感谢您的每一个回答。 谢谢大家! 数据供应主要通过为下游消费者创建不同的数据集市

我正在大数据系统中设计数据供应模块。数据供应被描述为

从数据湖向下游系统提供数据的过程称为数据供应;它为数据消费者提供了对数据池中数据资产的安全访问,并允许他们获取这些数据。数据交付、访问和出口都是数据供应的同义词,可以在此上下文中使用

在。我正在寻找一些设计这个模块的标准,包括如何保护数据,如何识别一些数据是来自系统的数据,等等。我在谷歌上搜索过,但没有多少与该关键字相关的结果。你能给我一些建议或者你自己的经验吗?感谢您的每一个回答。

谢谢大家!

数据供应主要通过为下游消费者创建不同的
数据集市来完成。例如,如果您有一个BigData系统,它将来自不同来源的数据聚合到一个数据湖中,那么您可以创建不同的数据集市,如“购买”、“销售”、“库存”等,并让下游使用这些数据。因此,只需要“库存”数据的下游消费者只需要使用“库存”数据集市

你最好的选择是搜索“数据集市”。例如,参考:

现在,您可以基于数据集市微调安全性和访问控制。比如说,

“销售”数据仅可供销售报告系统、用户、组等访问。 将“购买”数据等中的数据标记化。。。所有这些都符合业务要求

另一种方法是通过数据导出机制导出聚合数据。例如,使用“ApacheSqoop”将数据卸载到RDBMS。当要导出的数据小到足以导出给下游消费者时,这种方法是可取的

另一种方法是在同一个数据池中创建单独的“消费者区域”,例如,不同的Hadoop目录或Hive DB