Apache spark 暂停Dataproc群集-Google计算引擎
当我没有积极运行spark shell或spark submit作业时,是否有办法暂停Dataproc群集,以免收到账单?此链接上的群集管理说明:Apache spark 暂停Dataproc群集-Google计算引擎,apache-spark,google-cloud-dataproc,Apache Spark,Google Cloud Dataproc,当我没有积极运行spark shell或spark submit作业时,是否有办法暂停Dataproc群集,以免收到账单?此链接上的群集管理说明: 仅演示如何销毁群集,但我安装了spark cassandra连接器API。除了创建每次都需要安装的映像之外,我的唯一选择是什么?一般来说,最好的做法是将用于自定义群集的步骤提取到一些安装脚本中,然后使用Dataproc轻松地在群集部署期间自动执行安装 通过这种方式,如果您想要(例如)在多个并发Dataproc群集上执行相同的设置,或者想要更改机器类型
仅演示如何销毁群集,但我安装了spark cassandra连接器API。除了创建每次都需要安装的映像之外,我的唯一选择是什么?一般来说,最好的做法是将用于自定义群集的步骤提取到一些安装脚本中,然后使用Dataproc轻松地在群集部署期间自动执行安装 通过这种方式,如果您想要(例如)在多个并发Dataproc群集上执行相同的设置,或者想要更改机器类型,或者接收Dataproc偶尔发布的次小版本错误修复,则可以轻松地复制自定义,而无需手动参与 目前确实没有官方支持的暂停Dataproc集群的方法,这在很大程度上是因为能够进行可复制的集群部署以及下面列出的其他一些注意事项意味着99%的时间最好使用初始化操作定制,而不是就地暂停集群。也就是说,可能存在短期黑客行为,例如进入,选择要暂停的Dataproc集群中的实例,然后单击“停止”而不删除它们 计算引擎每小时费用和Dataproc的每vCPU费用仅在基础实例运行时产生,因此,尽管您已手动“停止”实例,但不会产生Dataproc或计算引擎的实例小时费用,尽管Dataproc仍将集群列为“正在运行”,尽管有一些警告,如果转到Dataproc集群摘要页面的“VM实例”选项卡,您将看到这些警告
你应该可以只点击页面上的“开始”使群集再次运行,但是重要的是考虑以下警告:
更新
Dataproc最近推出了停止和启动集群的功能:嘿,Dennis,你知道在重新缩放集群时如何运行
初始化操作吗(如你在第3节中提到的)?因为我遇到了这个问题,当新机器生成时初始化脚本没有运行。Thanksini操作肯定已经在通过扩展集群创建的新机器上自动运行了-您是否有一个示例集群uuid无法在新节点上运行init操作?