MariaDB 10.1.33不断崩溃

MariaDB 10.1.33不断崩溃,mariadb,Mariadb,我在EC2上运行的CentOS 7上设置了标准主/多从 我实际上有三个完全相同的奴隶(都是从同一个AMI中产生的),但只有一个每天崩溃一次。我在下面发布了error.log中的转储,以及引用错误转储中连接ID的查询日志 我试过查看MariaDB文档,但它所指向的只是解决堆栈转储,但没有真正的帮助来尝试从中找出答案 正在崩溃的从属服务器正在运行许多批处理式查询,但根据转储日志,最后一个连接id永远不是运行查询的连接之一 对于这个从机,我让系统关闭从机更新(SQL_线程),运行查询15分钟,停止查询

我在EC2上运行的CentOS 7上设置了标准主/多从

我实际上有三个完全相同的奴隶(都是从同一个AMI中产生的),但只有一个每天崩溃一次。我在下面发布了error.log中的转储,以及引用错误转储中连接ID的查询日志

我试过查看MariaDB文档,但它所指向的只是解决堆栈转储,但没有真正的帮助来尝试从中找出答案

正在崩溃的从属服务器正在运行许多批处理式查询,但根据转储日志,最后一个连接id永远不是运行查询的连接之一

对于这个从机,我让系统关闭从机更新(SQL_线程),运行查询15分钟,停止查询,启动从机直到赶上,停止从机更新,然后重新启动查询。重复一遍。在我搬到AWS之前,当我有一个colo设置时,这段代码已经工作了很多年,几乎不间断/无崩溃

我的另外两个克隆从属服务器仅将复制查询作为主服务器的热备盘运行(我从未使用过)。那些服务器从不崩溃

谢谢

Error.log崩溃转储:

180618 13:12:46[错误]mysqld获得信号11;这可能是因为 你碰到了一只虫子。也可能是这个二进制或 链接所针对的库已损坏、构建不正确或 配置错误。此错误也可能由故障引起 硬件。

要报告此错误,请参阅

我们会尽力搜集一些信息,希望能有所帮助 诊断问题,但由于我们已经崩溃,因此出现了一些问题 绝对错误,这可能会失败。

服务器版本:10.1.33-MariaDB

按键缓冲区大小=268431360
读取缓冲区大小=268431360
最大使用连接数=30
最大线程数=42
线程计数=11
mysqld可能会使用多达 密钥缓冲区大小+(读取缓冲区大小+排序缓冲区大小)*最大线程数= 22282919K字节的内存希望没问题;如果没有,减少一些 方程中的变量。

线程指针:0x7f4209f1c008正在尝试回溯。你可以使用 下面的信息可以找到mysqld的死因。如果你看到没有 在这之后,有些事情发生了严重的错误。。。栈底= 0x7f4348db90b0线程栈0x48400
/usr/sbin/mysqld(我的打印堆栈跟踪+0x2e)[0x55c19a7be10e]
/usr/sbin/mysqld(句柄致命信号+0x305)[0x55c19a2e1295]
sigaction.c:0(uuu restore_rt)[0x7f4348a835e0]
sql/sql\u class.h:3406(sql\u集合变量(THD*,列表, bool))[0x55c19a0d2ecd]
sql/sql_list.h:179(基本_list::empty())[0x55C19A14BC8]
sql/sql_parse.cc:2007(dispatch_命令(enum_server_命令,THD, 字符*,无符号整数)[0x55c19a15e85a]
sql/sql_parse.cc:1122(do_命令(THD*)[0x55c19a160f37]
sql/sql\u connect.cc:1330(处理一个连接(THD*)[0x55c19a22d6da]
sql/sql\u connect.cc:1244(处理一个连接)[0x55c19a22d880]
pthread_create.c:0(开始线程)[0x7f4348a7be25]
/lib64/libc.so.6(克隆+0x6d)[0x7f4346e1f34d]

正在尝试获取某些变量。
某些指针可能无效并导致 要中止的转储
查询(0x0):连接ID(线程ID):15894
状态:未被杀死

优化器开关: 索引合并打开,索引合并合并合并打开,索引合并合并排序合并打开,索引合并交叉点打开,索引合并排序交叉点关闭,引擎条件下推关闭,索引条件下推打开,派生合并打开,带关键字的派生合并打开,firstmatch打开,loosescan打开,物化打开,in-to-to-the-exists打开,semijoin-on,partial-match-rowid打开,部分匹配表扫描打开,子查询缓存打开,mrr关闭,mrr基于成本的关闭,mrr排序键关闭,外部连接缓存打开,半连接缓存打开,连接缓存增量打开,连接缓存哈希打开,连接缓存bka打开,优化连接缓冲区大小关闭,表消除键打开,扩展键打开,存在到缓存的顺序打开,按使用相等键关闭

连接ID的查询日志:

18061813:11:01
15894在
15894查询显示状态
15894准备显示完整流程列表/*m6clone1/
15894执行显示完整进程列表/m6clone1*/
15894关闭stmt
15894查询显示从机状态
15894查询显示变量
15894退出


当然闻起来像是硬件错误。如果你不能说服AWS,那就说服他们把从设备转移到不同的硬件上。(可能升级到更强大的实例,稍等片刻,然后降级。)谢谢。我会在几天内尝试一下升级的想法。嗯,这似乎已经成功了。我从r4.large迁移到r4.xlarge,内存和处理器数量翻了一番,MariaDB已经两天没有崩溃了,而且还在计数。这将花费我两倍,但一个稳定的平台是值得的。我猜我假设硬件错误不会像这样使数据库崩溃,我会收到一些警告,比如内存不足或连接太多等(就像我以前看到的那样!)。谢谢。线索:()只有一个奴隶有问题;()SIG11是相当糟糕的碰撞。