Hadoop Vs数据湖

Hadoop Vs数据湖,hadoop,data-warehouse,data-lake,Hadoop,Data Warehouse,Data Lake,我听到了一个新名词“数据湖”。我在谷歌上搜索到了 数据湖是一个大型存储库和处理引擎。数据湖提供“任何类型的数据的海量存储、巨大的处理能力以及处理几乎无限并发任务或作业的能力” 术语“数据湖”通常与面向Hadoop的对象存储相关联。在这种情况下,首先将组织的数据加载到Hadoop平台,然后将业务分析和数据挖掘工具应用到它驻留在Hadoop的商品计算机集群节点上的数据 Hadoop也做了同样的事情。我们有HDFS用于存储,MapReduce用于计算。 我对Hadoop和Data lake有点困惑。两

我听到了一个新名词“数据湖”。我在谷歌上搜索到了

数据湖是一个大型存储库和处理引擎。数据湖提供“任何类型的数据的海量存储、巨大的处理能力以及处理几乎无限并发任务或作业的能力”

术语“数据湖”通常与面向Hadoop的对象存储相关联。在这种情况下,首先将组织的数据加载到Hadoop平台,然后将业务分析和数据挖掘工具应用到它驻留在Hadoop的商品计算机集群节点上的数据

Hadoop也做了同样的事情。我们有HDFS用于存储,MapReduce用于计算。
我对Hadoop和Data lake有点困惑。两者的区别是什么。如果它们是相同的,这就是这个术语产生的原因。或者如何定义数据湖。

数据湖是一个抽象的“概念”。Hadoop是一种特定的技术/软件。您可以使用hadoop或其他工具实现数据湖。

数据湖是一种在系统中存储数据的方法,有助于以各种模式和结构形式(通常是对象blob或文件)整理数据

数据湖的概念与ApacheHadoop及其开源项目生态系统密切相关。所有关于数据湖的讨论都很快引出了如何使用ApacheHadoop生态系统构建数据湖的描述。它之所以流行,是因为它提供了一种经济高效、技术可行的方式来应对大数据挑战。组织机构 他们发现数据湖是从他们现有的数据架构演变而来的


将作为使用Hadoop构建数据湖的最佳示例。

我认为这个问题太像了

“Oracle vs数据库”。 数据湖是一种在系统或存储库中存储数据的方法。 Hadoop参考了这项技术,Hadoop是一个用于存储数据的开源软件框架。
因此,数据湖的一个例子是Hadoop中使用的分布式文件系统。

思考数据湖最简单的方法是想象这个大型容器就像一个真正的湖泊,河流流入河流,你永远不知道河流来自何处(或河流的“类型”)

Data Lake能够存储大量不同类型的数据(结构化数据、非结构化数据、日志文件、实时数据、图像等),并将这些数据混合在一起,将许多不同的数据类型关联起来。这里的关键是,我们正在从传统方式转向现代工具(如Hadoop、Cassandra、NoSQL DB等)

有一大堆数据正在被创建,如果我们能够分析它,我们可能会从中获得一些价值。我们可以使用云来获取这些数据,将其收集到一个存储中,并对其进行分析。在Azure中,我们有Azure Data Lake商店。我们可以获取所有这些数据,并将其存储在Azure data Lake store中。Azure Data Lake Store就像一个基于云的文件服务或文件系统,其大小几乎是无限的

我们可以在该存储中的数据之上运行服务。因此,您可以在HDInsight集群中使用Hadoop或Spark,也可以使用Azure Data Lake分析服务,它是Azure Data Lake存储的补充。该服务将允许您运行作业,有效地查询存储在Azure data Lake store中的数据并生成输出结果


Azure Data Lake Store是一个我们可以存储所有我们想要分析的数据的地方。Azure Data Lake Analytics是一项服务,我们可以在其中运行查询数据的作业,以生成某种分析输出Hadoop是一种特定的技术/(开源分布式数据处理集群技术)。您可以使用hadoop或使用不同的工具实现数据湖。

您将概念(数据湖)与可用于实现它们的框架(hadoop)混淆了,但这是可以理解的,因为这些术语彼此关联非常密切

Hadoop通常与数据湖相关联,因为最初的一些数据湖是使用本地Hadoop构建的。然而,数据湖只是一种架构设计模式——数据湖可以在Hadoop之外使用任何类型的可伸缩对象存储(例如Azure data lake或AWS S3)构建


在概述数据湖方面做得相当好,包括一篇讨论Hadoop和其他实现的文章。这里还有一个解决这些术语如何联系在一起的问题。

为了处理数据湖,除了我们的数据量之外,我们可以使用任何支持不同类型数据的技术。在ApacheHadoop的上下文中,我们有这个特性,所以我们可以使用Hadoop来实现DataLake。但hadoop绝不意味着一个数据湖,因为数据湖是一个包含大量实现的大型概念。在开发术语中,我们说“data lake是一个包含很多实现的规范,如hadoop、microsoft azure、aws等”

一个更具选择和使用功能的业务分析框架?hadoop需要更多地了解如何将外部分析算法集成到MapReduce中,如果我没有弄错的话,或者我今天听说了它。LOLIt的意思是HDFS和data lake可能是same@KishoreKumarSutharHDFS只是一个文件系统。所以没有。@Havnar根据维基百科,是的。“数据湖的一个例子是ApacheHadoop中使用的分布式文件系统。”任何人都可以编辑Wikipedia。FAT32也可以用来存储东西。所以你是说FAT32是一个数据湖?我想说,数据湖是Hadoop或其他技术可以做的事情之一,但并非所有Hadoop应用程序都是一个数据湖。