我可以缩小azure hdinsight群集的规模吗?

我可以缩小azure hdinsight群集的规模吗?,azure,hadoop,hive,azure-hdinsight,Azure,Hadoop,Hive,Azure Hdinsight,我已经创建了具有8节点群集的azure hdinsight。我正在运行占用所有工作节点的配置单元查询。 当我选中“纱线节点-列表”时,将列出以下内容: Node-Id Node-State Node-Http-Address No-of-Running-Containers X.X.X.X:00050 RUNNING X.X.X.X:00060 8 X.X.X.X:00050 RUNNING X.X.

我已经创建了具有8节点群集的azure hdinsight。我正在运行占用所有工作节点的配置单元查询。 当我选中“纱线节点-列表”时,将列出以下内容:

Node-Id             Node-State Node-Http-Address       No-of-Running-Containers
X.X.X.X:00050        RUNNING X.X.X.X:00060                 8
X.X.X.X:00050        RUNNING X.X.X.X:00060                 8
X.X.X.X:00050        RUNNING X.X.X.X:00060                 8
X.X.X.X:00050        RUNNING X.X.X.X:00060                 8
X.X.X.X:00050        RUNNING X.X.X.X:00060                 8
X.X.X.X:00050        RUNNING X.X.X.X:00060                 8
X.X.X.X:00050        RUNNING X.X.X.X:00060                 8
X.X.X.X:00050        RUNNING X.X.X.X:00060                 8
几个小时后,映射器已完成,2个还原器正在运行,如下所示:

Node-Id             Node-State Node-Http-Address       No-of-Running-Containers
X.X.X.X:00050        RUNNING X.X.X.X:00060                 0
X.X.X.X:00050        RUNNING X.X.X.X:00060                 1
X.X.X.X:00050        RUNNING X.X.X.X:00060                 0
X.X.X.X:00050        RUNNING X.X.X.X:00060                 0
X.X.X.X:00050        RUNNING X.X.X.X:00060                 1
X.X.X.X:00050        RUNNING X.X.X.X:00060                 0
X.X.X.X:00050        RUNNING X.X.X.X:00060                 0
X.X.X.X:00050        RUNNING X.X.X.X:00060                 0

到达此阶段时,我们是否能够缩小群集规模,而不影响正在运行的2个工作节点?

就我个人而言,我没有尝试缩放正在运行的HDInsight群集,但我已经阅读了有关支持的群集缩放操作(作业正在运行时)的官方信息。受支持的应用程序包括:

  • Hadoop
  • 糖化血红蛋白
  • 火花
您可能不应该使用运行的配置单元查询进行缩放,因为(1)配置单元不在列表中,(2)文档描述了如果按如下方式使用运行的作业进行缩放,Hadoop作业会发生什么情况。我想这也可能发生在蜂巢工作上

当通过减少数据量来缩小Hadoop集群时 节点,群集中的某些服务将重新启动。这导致 所有正在运行和挂起的作业将在扩展完成时失败 活动但是,您可以在操作完成后重新提交作业 完成


另外,HDInsights群集有两种类型的自动扩展功能,您可以从azure门户管理它们: 1.)时间表基数。-按照给定的时间表(晚上8点-上午5点-仅2个节点) 2.)Load base(基本负载)-如果未使用节点30分钟左右,则移除节点


我认为您可以在您的案例中使用基于负载的自动缩放

您是否检查了还原程序正在读取/写入哪些HDFS数据节点?你有没有读过数据节点“退役”意味着什么,即重新平衡文件块,使每个文件块仍然被复制3次?换句话说,Hadoop不仅仅是一个分布式计算框架,它是一个分布式文件系统。它可以移动数据。当你的笔记本电脑运行时,你能把它的硬盘撕下来吗。。。?