Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 暂停Dataproc群集-Google计算引擎_Apache Spark_Google Cloud Dataproc - Fatal编程技术网

Apache spark 暂停Dataproc群集-Google计算引擎

Apache spark 暂停Dataproc群集-Google计算引擎,apache-spark,google-cloud-dataproc,Apache Spark,Google Cloud Dataproc,当我没有积极运行spark shell或spark submit作业时,是否有办法暂停Dataproc群集,以免收到账单?此链接上的群集管理说明: 仅演示如何销毁群集,但我安装了spark cassandra连接器API。除了创建每次都需要安装的映像之外,我的唯一选择是什么?一般来说,最好的做法是将用于自定义群集的步骤提取到一些安装脚本中,然后使用Dataproc轻松地在群集部署期间自动执行安装 通过这种方式,如果您想要(例如)在多个并发Dataproc群集上执行相同的设置,或者想要更改机器类型

当我没有积极运行spark shell或spark submit作业时,是否有办法暂停Dataproc群集,以免收到账单?此链接上的群集管理说明:


仅演示如何销毁群集,但我安装了spark cassandra连接器API。除了创建每次都需要安装的映像之外,我的唯一选择是什么?

一般来说,最好的做法是将用于自定义群集的步骤提取到一些安装脚本中,然后使用Dataproc轻松地在群集部署期间自动执行安装

通过这种方式,如果您想要(例如)在多个并发Dataproc群集上执行相同的设置,或者想要更改机器类型,或者接收Dataproc偶尔发布的次小版本错误修复,则可以轻松地复制自定义,而无需手动参与

目前确实没有官方支持的暂停Dataproc集群的方法,这在很大程度上是因为能够进行可复制的集群部署以及下面列出的其他一些注意事项意味着99%的时间最好使用初始化操作定制,而不是就地暂停集群。也就是说,可能存在短期黑客行为,例如进入,选择要暂停的Dataproc集群中的实例,然后单击“停止”而不删除它们

计算引擎每小时费用和Dataproc的每vCPU费用仅在基础实例运行时产生,因此,尽管您已手动“停止”实例,但不会产生Dataproc或计算引擎的实例小时费用,尽管Dataproc仍将集群列为“正在运行”,尽管有一些警告,如果转到Dataproc集群摘要页面的“VM实例”选项卡,您将看到这些警告

你应该可以只点击页面上的“开始”使群集再次运行,但是重要的是考虑以下警告:

  • 集群有时可能无法重新启动到正常状态;任何使用本地SSD的东西都无法完全停止并重新启动,但除此之外,Hadoop守护进程可能由于任何原因无法刷新磁盘上重要的内容(如果关闭不有序),甚至用户安装的设置也可能以未知方式破坏启动过程
  • 即使当虚拟机被“停止”时,它们也取决于底层剩余的虚拟机,因此即使在“暂停”时,您仍将继续为这些虚拟机收取费用;如果我们假设每个GB月0.04美元,每个Dataproc节点默认500GB磁盘,那么每个实例继续支付大约0.028美元/小时;一般来说,您的数据将更容易访问,而且更便宜,只需将其放在谷歌云存储中进行长期存储,而不必试图将其长期保存在Dataproc集群的HDFS上
  • 如果您过于依赖手动群集设置,那么如果您需要调整群集大小、更改机器类型或更改区域等,则重新设置会变得更加困难。与Dataproc的初始化操作相比,您可以使用来调整集群的大小,并为创建的新辅助对象自动运行初始化操作

  • 更新
    Dataproc最近推出了停止和启动集群的功能:

    嘿,Dennis,你知道在重新缩放集群时如何运行
    初始化操作吗(如你在第3节中提到的)?因为我遇到了这个问题,当新机器生成时初始化脚本没有运行。Thanksini操作肯定已经在通过扩展集群创建的新机器上自动运行了-您是否有一个示例集群uuid无法在新节点上运行init操作?