使用azure blob存储时的HDInsight群集大小

使用azure blob存储时的HDInsight群集大小,azure,hadoop,hive,azure-hdinsight,Azure,Hadoop,Hive,Azure Hdinsight,当使用HDInsight并选择Azure Storage Blob来存储需要计算的数据时,在配置新群集时,仍然必须选择数据节点的数量。如果您的数据存储在Azure存储Blob上,那么数据节点的数量会产生什么影响?blob中的数据是否实际复制到数据节点上?如果将数据放在Azure blob存储中,它将留在那里,并直接从Azure存储中读取 HDInsight集群中的数据节点有两个用途。首先,它们运行实际的计算作业,直接从Azure存储读取。对于HDFS用户来说,这并不像听起来那么疯狂,因为Azur

当使用HDInsight并选择Azure Storage Blob来存储需要计算的数据时,在配置新群集时,仍然必须选择数据节点的数量。如果您的数据存储在Azure存储Blob上,那么数据节点的数量会产生什么影响?blob中的数据是否实际复制到数据节点上?

如果将数据放在Azure blob存储中,它将留在那里,并直接从Azure存储中读取

HDInsight集群中的数据节点有两个用途。首先,它们运行实际的计算作业,直接从Azure存储读取。对于HDFS用户来说,这并不像听起来那么疯狂,因为Azure具有一致的底层结构,它使存储保持良好且接近计算机

其次,数据节点在其本地磁盘上运行HDFS文件系统。这通常仅用于HDInsight中的中间文件和tmp文件,因为它是暂时的(只持续集群的时间)


因此,选择数据节点的数量实质上就是选择您希望能够处理多少个作业运行节点(应用程序容器或作业跟踪器插槽,具体取决于版本),并在较小程度上选择您的作业需要多少临时空间。

谢谢!你知道这些信息的来源吗?我找不到任何原因。这是一个很好的参考。