Azure数据湖VS Azure HDInsight_Azure_Azure Data Lake_Azure Hdinsight

Azure数据湖VS Azure HDInsight

azure

Azure数据湖VS Azure HDInsight,azure,azure-data-lake,azure-hdinsight,Azure,Azure Data Lake,Azure Hdinsight,我正在浏览Microsoft文档：我是Azure Data lake和HDInsight的新手。URL中有一条语句告诉我们 "Azure Data Lake Store can be accessed from Hadoop (available with HDInsight cluster) using the WebHDFS-compatible REST APIs." 根据我最初的理解，Data lake store是一个可以存储任何类型数据的存储库。我认为HDInsight也做了同

我正在浏览Microsoft文档：

我是Azure Data lake和HDInsight的新手。URL中有一条语句告诉我们

"Azure Data Lake Store can be accessed from Hadoop (available with HDInsight cluster) using the WebHDFS-compatible REST APIs."

根据我最初的理解，Data lake store是一个可以存储任何类型数据的存储库。我认为HDInsight也做了同样的事情

我的问题是Azure Data lake和Azure HDInsight之间的区别是什么？如果HDInsight可以用于文件存储或任何类型的存储，那么为什么要使用Data Lake？如果有人能够详细说明这一点，那就太好了。谢谢。

Azure Data Lake Store，只是一个数据存储。HDInsight也可以在您启动的集群中实现这一点。但是，当您停止该集群时，数据也会消失

客户通常使用Azure Data Lake Store或Azure storage来提供与用于处理数据的集群（计算）分离的永久存储

Guy

想一想数据湖，最简单的方法就是想一想这个大型容器，它就像一个真正的湖泊，河流流入河流中你永远不知道河流来自何处（或河流的“类型”）。Azure Data Lake的引入使开发人员、数据科学家和分析师能够轻松地存储大数据，从而存储任意大小的数据它消除了接收和存储所有数据的复杂性，同时加快了大数据的启动和运行。Data Lake能够存储大量不同类型的数据（结构化数据、非结构化数据、日志文件、实时数据、图像等），并将其混合在一起，从而关联许多不同的数据类型。这里的关键是，我们正在从传统方式转向现代工具（如Hadoop、Cassandra、NoSQL DB等）。Azure Data Lake包括三项服务：

Azure Data Lake Store，一个为大数据提供动力的无限制数据湖分析
Azure Data Lake Analytics，一种大规模并行的按需服务就业服务
Azure HDInsight，一款全面管理的云Hadoop和Spark 奉献

Azure Data Lake Store就像一个基于云的文件服务或文件系统，其大小几乎是无限的。我们可以在该存储中的数据之上运行服务。因此，您可以在HDInsight集群中使用Hadoop或Spark，也可以使用Azure Data Lake分析服务，它是Azure Data Lake存储的补充。该服务将允许您运行作业，有效查询存储在Azure data Lake store中的数据并生成输出结果。
HDInsight是分析服务，而Azure data Lake Storage是存储服务。您很可能需要两者都具有功能分析群集
HDInsight提供集群，全面管理用于分析的开源软件包（Hadoop、Spark…等），您可以将集群设置为使用Azure Data Lake存储，该存储在云存储之上支持HDFS API（Hadoop文件系统）
这是您应该开始考虑的，它将Azure存储和ADL的优点合并到一个服务中。-
ADLS第2代文档——简而言之

Hdinsight is a managed hadoop service (to provide compute support) Azure Data lake(ADL) is a managed storage service (to provide large amount of storage support)
（代替ADL，您也可以选择在HDinsight中使用Blob，但Blob有一些限制（例如不支持通过HDinsight群集将文件流传输到存储）
下面是Azure文档中的定义：
Azure使用“分解硬件方法”
您可以将HDinsight关联或假设为Hadoop集群，将Azure Data lake（ADL）关联或假设为HDFS，但它们是分离的
如果您想与AWS建立联系，HDInsight相当于EMR，ADL相当于EMRFS或S3
如果终止群集，ADL存储将保留其中存储的文件。您可以使用其他服务或工具（如Azure Data bricks）直接访问存储，也可以在数据之上创建另一个hdinsight群集
Hdinsight使用ADL://和Hdinsight从不访问ADL 将文件块存储在节点中（就像Hadoop那样），而不是映射到存储服务

Azure Data Lake Analytics在使用Azure Data Lake Store进行数据存储时提供无服务器计算，而在HDInsight中，我们需要根据处理要求指定和设计计算虚拟机节点。对于开发人员来说，在Azure Data Lake Analytics中使用无服务器计算可能是有利的，因为分析工作是开箱即用的。
我不确定你是否应该这样画东西。相反，Azure上的HD Insight和HDP可以像Data Lak Analytics一样使用Data Laks Store。否则就太好了。啊，无服务器。你是说在进行分析时必须将数据加载到HDinsight中吗？