Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/amazon-web-services/14.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
AWS MySQL RDS实例变得无响应并自动重新启动_Mysql_Amazon Web Services_Amazon Rds - Fatal编程技术网

AWS MySQL RDS实例变得无响应并自动重新启动

AWS MySQL RDS实例变得无响应并自动重新启动,mysql,amazon-web-services,amazon-rds,Mysql,Amazon Web Services,Amazon Rds,我们有一个AWS MySQL RDS实例,大小约为1.7T。有时它会失去响应,无法执行任何操作 CPU利用率、写入IOPS、读取IOPS、队列深度、写入吞吐量、写入延迟和读取延迟降至零 连接的数量会堆积起来 “显示引擎innodb状态”挂起 rdsadmin的大量查询(每个查询大约25个)处于挂起状态 SELECT count(*) from mysql.rds_replication_status WHERE action = 'reset slave' and master_host is

我们有一个AWS MySQL RDS实例,大小约为1.7T。有时它会失去响应,无法执行任何操作

  • CPU利用率、写入IOPS、读取IOPS、队列深度、写入吞吐量、写入延迟和读取延迟降至零
  • 连接的数量会堆积起来
  • “显示引擎innodb状态”挂起
  • rdsadmin的大量查询(每个查询大约25个)处于挂起状态

    SELECT count(*) from mysql.rds_replication_status WHERE action = 'reset slave' and master_host is NULL and master_port is NULL GROUP BY action_timestamp,called_by_user,action,mysql_version,master_host,master_port ORDER BY action_timestamp LIMIT 1;
    
    SELECT NAME, VALUE FROM mysql.rds_configuration; 
    
  • 一段时间后,实例会自动重新启动,并出现以下错误

    启动MySQL重启以解决MySQL导致的日志备份问题。请注意,作为此结果的一部分,将在MySQL完成重新启动后执行DB快照


  • 问题是什么?这种情况经常发生。有时,出乎意料的是,这种情况也发生在非高峰时段

    检查您的db维护窗口时间,我是指您的计划维护发生的时间,并注意此问题发生的时间是定期还是随机

    检查mysql错误日志和慢速查询日志


    如果可能,将可疑问题粘贴到此处

    我遇到了相同的问题,并向AWS支持部门提出了一个问题。得到如下解释:


    RDS监控服务发现有关备份数据库二进制日志的问题,这对于时间点还原(PITR)功能至关重要。为了缓解此问题并避免数据损坏,RDS monitoring重新启动了RDS实例,因此会自动触发重新启动。为了确保没有数据丢失,它拍摄了DB实例的快照

    虽然RDS实例是多AZ的,但由于以下原因没有进行故障转移:

    Multi-AZ有两个标准: 1-单盒体验,这意味着客户即使在故障切换后也总能找到自己的数据。 2-比单个AZ更高的可用性

    因此,当AWS监控服务决定故障切换到备用实例时,这两个条件都必须存在,但在您的情况下,AWS监控服务注意到了一些可能导致故障切换后数据丢失的风险,这就是它决定重新启动而不是故障切换的原因



    希望这有帮助。不过,在过去一周内,我遇到过3次这种情况。

    我们通过将实例升级到5.6.34解决了这个问题

    你试过向AWS寻求支持吗?是的。他们的回答不是肯定的,因为我们还没有任何支持订阅。您是否正在打开连接、启动事务、执行更新,然后不关闭事务或连接?实际上,这并不限于一个实例。我们在主服务器和从服务器中都观察到这种行为,其中从服务器基本上只有读取负载。根据这些图,我们观察到连接在cpu图下降到零后立即增加。在此期间,日志中没有什么重要内容。此外,在一个实例中,我们关闭了应用程序,终止了所有会话,并等待数据库响应。但数据库拒绝响应,最终发生了自动重启。(某些命令起作用,如KILL和“show open tables”、“show processlist”)您是否检查了计划维护时间,如果itI检查了与事件不一致的维护窗口,是否可以粘贴该时间的show processlist输出。事实上,事件没有任何模式。进程列表包含许多处于“打开表”状态的查询,另外还有以下查询(每个查询25个)从mysql.rds\u replication\u status中选择count(*),其中action='reset slave',master\u host为NULL,master\u port为NULL,按action\u时间戳分组,用户称为\u,action,mysql\u version,master\u host,主控\u操作的端口顺序\u时间戳限制1;从mysql.rds_配置中选择名称、值;从mysql.rds_配置中选择名称、值;嗨,安舒尔,谢谢你的回复。看起来他们确实给了你一个解释,但他们是否给了你一个解决方案或解决方法来避免/阻止这种情况?在我们的例子中,这几乎每隔一周发生一次。我已经要求过了。等待答复。太好了。请让我们知道进展如何。嗨,安舒尔,AWS就此回复你了吗?