(Azure)数据湖的元数据管理

(Azure)数据湖的元数据管理,azure,metadata,azure-data-lake,database-metadata,data-lake,Azure,Metadata,Azure Data Lake,Database Metadata,Data Lake,据我所知,data lake解决方案用于存储从原始格式的原始数据到处理后的数据的所有内容。不过,我还不能理解(Azure)数据湖中元数据管理的概念。在数据湖中处理元数据的最佳实践是什么 是否有任何机制可以自动读取元数据(例如,从头文件读取),如果有,是否有任何方法可以查看和编辑此元数据(可能是通过编程实现的API)?我担心如果没有适当的管理,这个“湖”将变成一个“数据坟墓”。一种解决方案可能是创建一个自己的数据库,我自己在其中存储每个文件的元数据。还有其他更先进的方法吗?这是一个相当广泛的问题,

据我所知,data lake解决方案用于存储从原始格式的原始数据到处理后的数据的所有内容。不过,我还不能理解(Azure)数据湖中元数据管理的概念。在数据湖中处理元数据的最佳实践是什么


是否有任何机制可以自动读取元数据(例如,从头文件读取),如果有,是否有任何方法可以查看和编辑此元数据(可能是通过编程实现的API)?我担心如果没有适当的管理,这个“湖”将变成一个“数据坟墓”。一种解决方案可能是创建一个自己的数据库,我自己在其中存储每个文件的元数据。还有其他更先进的方法吗?

这是一个相当广泛的问题,我将尽力回答。通常,您会尝试按逻辑区域和可识别的拥有团队来组织数据湖存储中的数据。可以在Azure数据目录中对数据进行编目,以进行发现和充实。目前,我们没有任何自动将数据发布到数据目录的能力。数据的所有者必须手动将其发布到ADC。如果您对该领域的特定功能感兴趣,请在此处提交并投票:

应被视为数据湖中数据排序的最佳实践方法,因为图书馆分类系统将信息/知识/数据排序为不连续的类别

从技术上讲,您可以在(文件)名称/(文件)路径中使用不相交的类别信息,或者将其作为头信息或属性包含在文件中。在Azure中,在向数据库中的数据添加标记时,还可以应用库分类方法