Sql 数据湖如何存储数据以及数据的格式?

Sql 数据湖如何存储数据以及数据的格式?,sql,image,nosql,azure-data-lake,data-lake,Sql,Image,Nosql,Azure Data Lake,Data Lake,我听说Data Lakes可以存储任何类型的数据:关系型、NoSql、图片/图像、Adobe Pdf、Excel。 数据是如何以非SQL格式或二叉树存储的?还是像普通硬盘一样保存?如果是这样的话,为什么他们不直接称之为存储,而不是数据湖呢?我试图找到“数据湖”的确切存储机制。数据湖是以自然格式存储的数据系统或存储库,[1]通常是对象blob或文件。数据湖通常是所有企业数据的单一存储,包括用于报告、可视化、分析和机器学习等任务的源系统数据和转换数据的原始副本。数据湖可以包括来自关系数据库(行和列)

我听说Data Lakes可以存储任何类型的数据:关系型、NoSql、图片/图像、Adobe Pdf、Excel。
数据是如何以非SQL格式或二叉树存储的?还是像普通硬盘一样保存?如果是这样的话,为什么他们不直接称之为存储,而不是数据湖呢?我试图找到“数据湖”的确切存储机制。

数据湖是以自然格式存储的数据系统或存储库,[1]通常是对象blob或文件。数据湖通常是所有企业数据的单一存储,包括用于报告、可视化、分析和机器学习等任务的源系统数据和转换数据的原始副本。数据湖可以包括来自关系数据库(行和列)的结构化数据、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、PDF)和二进制数据(图像、音频、视频)

示例:用于托管数据湖的技术的一个示例是ApacheHadoop中使用的分布式文件系统

许多公司还使用Azure Data Lake和Amazon S3等云存储服务。[9]学术界对数据湖的概念逐渐感兴趣,例如,加的夫大学的Personal DataLake[10]创建了一种新型的数据湖,旨在通过提供单一收集点来管理个人用户的大数据,组织和共享个人数据。[11]


早期的数据湖(Hadoop 1.0)的面向批处理(MapReduce)功能有限,是唯一与之相关的处理范式。与data lake交互意味着您必须具备使用map reduce和更高级别工具(如ApachePig和ApacheHive)的Java专业知识(这些工具本身就是面向批处理的)。随着Hadoop 2.0的诞生,职责分离,资源管理由YARN(另一位资源谈判者)接管,通过Hadoop和Data Lake提供了流式、交互式、在线等新的处理模式

还有一个问题,这与存储不同类型文件的硬盘有什么不同?或者,它只是一个相同的营销趋势词?谢谢,硬盘是一种服务器。服务器是一台计算机以及与其他计算机和程序(通常通过某种形式的网络)共享数据和任务所需的程序。它可能包括一个或多个硬盘驱动器,就像任何计算机也可能包括自己的一个或多个硬盘驱动器一样。通常,服务器专用于其他计算机使用。通常,它运行时不需要用户不断地告诉它该做什么。这是最主要的区别。服务器的功能听上去与data lake类似,“硬盘驱动器是一种服务器”,如果这确实对您有帮助,请继续并将我的回答标记为有用。谢谢好的,可以,我可能会问另一个帖子,询问存储服务器和数据湖之间的区别