群集和存储帐户之间的microsoft azure差异

群集和存储帐户之间的microsoft azure差异,azure,azure-hdinsight,azure-data-lake,Azure,Azure Hdinsight,Azure Data Lake,我在向你学习。它要求创建一个新的hdinsight群集(选项有hadoop、hbase、storm或spark)和一个存储帐户。群集和存储帐户之间的区别是什么?集群是否包括处理我的作业的处理器?存储帐户是否意味着存储我的数据的空间?为什么我不能将同一个存储帐户连接到不同的群集 同样在Microsoft Azure>>New>>Data+Analytics下,我看到了两个选项:hdinsight,处理大数据的数据湖分析。这两者的区别是什么?他们俩看起来很相似 HDInsight 微软基于云的大数据

我在向你学习。它要求创建一个新的hdinsight群集(选项有hadoop、hbase、storm或spark)和一个存储帐户。群集和存储帐户之间的区别是什么?集群是否包括处理我的作业的处理器?存储帐户是否意味着存储我的数据的空间?为什么我不能将同一个存储帐户连接到不同的群集

同样在Microsoft Azure>>New>>Data+Analytics下,我看到了两个选项:hdinsight,处理大数据的数据湖分析。这两者的区别是什么?他们俩看起来很相似

HDInsight 微软基于云的大数据服务。Apache Hadoop和其他流行的大数据解决方案

数据湖分析
大数据分析变得简单

这里有很多问题,让我逐一回答

什么是Blob存储与HDInsight群集? Blob存储是一种与HDFS非常相似的分布式文件存储,用于存储数据/视频/内容。HDInsight集群是为在DFS(HDFS或Blob存储)上运行Map Reduce代码而创建的许多Hadoop虚拟机。拥有两个独立的服务可以让您独立地扩展每个服务,从长远来看可以节省资金。数据存储很便宜,但是一个500节点的虚拟机集群很快就会变得昂贵。能够杀死集群但保留数据是有帮助的

为什么我不能将同一个存储帐户连接到不同的群集? 可以将多个集群指向同一个存储帐户,但这是一种反模式。存储帐户有数据和IO限制,如果您有多个群集与单个存储帐户对抗,则更有可能会碰到它们。此外,如果存储帐户中有数据,则只需花费$$,因此拥有多个帐户不会增加成本

什么是Azure数据湖(ADL)和ADL存储? Azure data lake是存储和计算的另一种选择。ADL存储可以被认为是blob存储v2。blob存储增加了IO和文件大小的一些限制,同时仍然能够使用Hadoop进行计算。ADL是compute的第二种选择,与Hadoop完全不同。一般来说,您不必担心集群的创建或集群。编写查询,指定所需的并行化量,然后返回数据

参考文献:


我什么时候应该选择hdinsight vs adl?如果您有大量数据或希望使用大型群集,请使用adl存储。如果您不知道/想学习Hadoop,请尝试ADL