Amazon web services 路由53故障切换路由需要6到8分钟的停机时间

Amazon web services 路由53故障切换路由需要6到8分钟的停机时间,amazon-web-services,routing,amazon-route53,failover,Amazon Web Services,Routing,Amazon Route53,Failover,我在路由53故障切换的切换区域之间收到“502坏网关错误” 如果主电源关闭,在主电源和辅助电源之间切换需要2-3分钟。 同时,在灾难恢复站点上,如果启动主服务器,则需要另外6到8分钟将流量从灾难恢复重定向到主服务器。如何将停机时间从6到8分钟完全减少到0?您需要检查ELB运行状况检查+路由53运行状况检查多长时间才能确定是否需要故障切换,最后一步是DNS记录的TTL 例如,假设您有一个web应用程序,托管在和ELB后面,您通过myapp.mydomain.com访问它 ELB健康检查 虽然您应该

我在路由53故障切换的切换区域之间收到“502坏网关错误”

如果主电源关闭,在主电源和辅助电源之间切换需要2-3分钟。
同时,在灾难恢复站点上,如果启动主服务器,则需要另外6到8分钟将流量从灾难恢复重定向到主服务器。如何将停机时间从6到8分钟完全减少到0?

您需要检查ELB运行状况检查+路由53运行状况检查多长时间才能确定是否需要故障切换,最后一步是DNS记录的TTL

例如,假设您有一个web应用程序,托管在和ELB后面,您通过myapp.mydomain.com访问它

ELB健康检查 虽然您应该检查的主要内容是R53运行状况检查(见下文),但ELB配置也很重要

查看确定故障需要多长时间:

  • HealthCheck Interval—运行状况检查之间的时间间隔
  • 不健康阈值-有多少运行状况检查失败
确保这两个地区的ELBs中的配置相同。

路线53健康检查 这是决定故障转移所需时间的主要因素。 myapp.mydomain.com可能有2条CNAME记录,每个记录指向R53健康检查,每个健康检查点位于各自区域的ELB。 检查两项健康检查,并确保:

  • 请求间隔-R53轮询您的ELB的健康状况的频率
  • Failure threshold—端点必须通过或失败才能更改状态的连续运行状况检查数
确保运行状况检查的配置(主要和次要)相同。

一旦状态改变,就由DNS记录TTL决定

路由53 CNAME TTL 通过查看记录TTL,检查故障转移后CNAMES指向记录的时间。例如,如果TTL为30,则路由器53开始指向辅助区域大约需要30秒

确保两个CNAME记录具有相同的TTL。

执行此操作后,您可以确定故障切换需要多长时间,例如: 您的运行状况检查正在查看端口80:/availability,您的运行状况检查大约需要30秒,并且您的apache在主站点死亡

在30(示例)秒内,ELB将确定实例停止服务并停止转发流量。 在相同的30(示例)秒内,监视相同healthcheck(端口80:/)的R53 health check也将确定主ELB不健康

这是R53决定开始将DNS查询指向辅助ELB的地方。

如果您的TTL设置为30,则故障切换应在大约1分钟内完成,+/-一段传播时间,等等


确保不要将健康检查设置为过于频繁,这取决于ELB后面有多少实例,这可能会导致从ELB和Route53对健康端点的服务进行大量调用。

请注意,Primary和Dr位于不同的区域,每个区域有3个EC2实例在ASG behing ELBI中运行。我假设您依赖某种健康检查(ELB>R53或R53)来确定是否进行故障切换?您能否共享健康检查(每个区域一个)配置?它们的配置是否相同?顺便说一句,停机时间永远不会为0。是的,我依靠53号公路进行生产健康检查,DR站点是的,我依靠53号公路进行生产健康检查,DR站点生产健康检查点指向主域名,而另一个健康检查点指向主区域的ELB。当主设备先下降后上升(或DR上的DR先下降后上升)时,它工作正常。在切换区域(即主设备到DR 2到3分钟,DR到主设备6到8分钟)期间,会出现502坏网关问题。我几秒钟没问题,但几分钟没问题。感谢您简短的描述性回答@Eytan,您在这里提到的是关于CNAME的,但我使用的是一个记录,它指向各自区域的ELB,即初级和DR。正如您所说,两个ELB的配置在健康检查和不健康阈值方面完全相同,关键是停机时间为几分钟,即从一级到二级的停机时间为2分钟,而从一级到二级的停机时间为6到8分钟。我们已经开始使用F5负载均衡器,它可以在几秒钟内完成相同的工作,而客户端在云迁移期间也希望如此。以秒为单位的停机时间是可以接受的,但不能以分钟为单位。如果涉及ELB运行状况检查,则不存在将这些实例标记为运行状况良好的问题,并且ELB能够在主区域和DR区域中立即检测到相同的情况。但是,对于路由53,同样的事情在切换过程中需要几分钟的时间。路由53无法在几秒钟内平衡相同的内容。您不应该使用ELB的IP地址-当ELB进出时,AWS可能会更改IP,您应该只使用ELB的DNS FQDN,您可以使用CNAME包装