Ubuntu GCE实例崩溃后如何自动重新启动?

Ubuntu GCE实例崩溃后如何自动重新启动?,ubuntu,google-compute-engine,Ubuntu,Google Compute Engine,我想我需要一个shell脚本来自动重启一个实例,不管它是因为软件问题还是硬件问题而崩溃 操作系统是Ubuntu 18.04。可能会有很多解决方案。您可能会考虑使用谷歌StayDuffor监视时间检查。这允许您定义服务/计算引擎“启动”的度量。。。见: 如果计算引擎没有响应(因为它已崩溃或不可用),这可能会导致警报,触发通知通道,该通道可以调用webhook,该webhook可以使用计算引擎管理API停止或重新启动计算引擎 将您的拼图拆分为不同的部分: 如何检测计算引擎未响应或崩溃 如何调用将执

我想我需要一个shell脚本来自动重启一个实例,不管它是因为软件问题还是硬件问题而崩溃


操作系统是Ubuntu 18.04。

可能会有很多解决方案。您可能会考虑使用谷歌StayDuffor监视时间检查。这允许您定义服务/计算引擎“启动”的度量。。。见:

如果计算引擎没有响应(因为它已崩溃或不可用),这可能会导致警报,触发通知通道,该通道可以调用webhook,该webhook可以使用计算引擎管理API停止或重新启动计算引擎

将您的拼图拆分为不同的部分:

  • 如何检测计算引擎未响应或崩溃
  • 如何调用将执行自定义逻辑的软件/服务/任务/功能
  • 如何执行停止/重新启动计算引擎的逻辑

  • 如果您将这些部分组合在一起,您应该有自己的解决方案。

    GCE提供了具有自动修复功能的托管实例组,该功能对于无状态和有状态工作负载都很有用

    在有状态工作负载的情况下,如果您预计有状态工作负载可能崩溃,则应实施预防措施以保护数据一致性,如定期提交、将事务日志保存在快速可靠的存储上,并在禁用回写缓存、快照、initdbscript等的情况下对写入进行优化,与您以前在裸机系统上所做的非常相似

    下一步,您需要区分健康检查(如全面建议的)。您应该对负载平衡和自动修复进行单独的运行状况检查

    最后,根据您的需要创建一个带有健康检查和自动修复功能的MIG

    请看