Cassandra 2.1.2节点在加入集群时卡住
我正在尝试将一个新的(虽然很旧,但已经消失)节点加入到现有集群,但失败了 当前集群由2个节点组成,运行C*2.1.2。我用2.1.2启动第三个节点,它进入连接状态,它进行引导,即流式传输一些数据,如nodetool netstats所示,但过了一段时间,它就卡住了。从那时起,任何内容都不会流化,新节点将保持加入状态。我重新启动了节点两次,每次都会传输更多的数据,但后来又卡住了。(我目前正处于第三轮) 其他事实:Cassandra 2.1.2节点在加入集群时卡住,cassandra,Cassandra,我正在尝试将一个新的(虽然很旧,但已经消失)节点加入到现有集群,但失败了 当前集群由2个节点组成,运行C*2.1.2。我用2.1.2启动第三个节点,它进入连接状态,它进行引导,即流式传输一些数据,如nodetool netstats所示,但过了一段时间,它就卡住了。从那时起,任何内容都不会流化,新节点将保持加入状态。我重新启动了节点两次,每次都会传输更多的数据,但后来又卡住了。(我目前正处于第三轮) 其他事实: 我在任何节点的日志中都没有看到任何错误 连接似乎很好,我可以ping,netcat
- 我在任何节点的日志中都没有看到任何错误李>
- 连接似乎很好,我可以ping,netcat到端口7000
- 每个正在运行的节点有267 GB的负载,复制2个,16个令牌
- 现在新节点的负载约为100GBs
- 我猜想,经过几轮重启后,节点最终将从运行中的节点吸取所有数据并加入集群。但这肯定不是它应该工作的方式
-
引导程序在发送某个表的中途停止,<强>始终< /强>发送某个稳定的10MB后,例如:
$nodetool netstats | grep-p-v“字节\(100)” 模式:正常 引导e0abc160-7ca8-11e4-9bc2-cf6aed12690e /192.168.200.16 发送516个文件,总计124933333900字节 /home/data/cassandra/data/leadbill/page_view-2a2410103f4411e4a266db7096512b05/leadbill-page_view-ka-13890-data.db 10485760/167797071字节(6%)发送到idx:0/192.168.200.16 阅读维修统计信息: 电话:2016371 不匹配(阻塞):0 不匹配(背景):168721 池名称活动挂起已完成 命令编号:0 55802918 答复不适用0 425963
在加入过程中,您是否一直在观察JVM?堆是否已充分利用?您是否看到C*日志中出现了任何长GC?您是否在重新添加节点之前解除了节点的运行状态?流言蜚语偶尔会记住节点,并在稍后重新添加节点时引发问题。@RussS,是的,我观察了它。它看起来很好。堆的使用情况得到了改善到最大值,但随后它被正确地设置为1GB。@mildewey,我确实在重新添加节点之前解除了该节点的运行。@zarzyk您检查过您的system.log吗?是否有任何异常消息?