Ignite 群集中的节点变得不稳定、无法加入群集中并无限期挂起时引发问题

Ignite 群集中的节点变得不稳定、无法加入群集中并无限期挂起时引发问题,ignite,Ignite,您好,我在生产服务器中遇到了Ignite的一个关键问题。我们有两个实例,每个实例的堆大小为8gb。有时由于长时间gc暂停或网络问题,我们的一个实例被停止。这会导致aws自动缩放启动并启动另一个实例。这很好,但我们已经观察到,在这种状态下,网格变得不稳定,我们的新ignite instances永远无法加入拓扑并永久挂起,从而导致新的自动缩放实例一次又一次出现。解决方法是重新启动群集中的其他实例,因为这样做会导致节点再次加入。但理想情况是在prod中在自动缩放的情况下,这应该会自动发生。 也增加了

您好,我在生产服务器中遇到了Ignite的一个关键问题。我们有两个实例,每个实例的堆大小为8gb。有时由于长时间gc暂停或网络问题,我们的一个实例被停止。这会导致aws自动缩放启动并启动另一个实例。这很好,但我们已经观察到,在这种状态下,网格变得不稳定,我们的新ignite instances永远无法加入拓扑并永久挂起,从而导致新的自动缩放实例一次又一次出现。解决方法是重新启动群集中的其他实例,因为这样做会导致节点再次加入。但理想情况是在prod中在自动缩放的情况下,这应该会自动发生。 也增加了更长的故障检测超时时间,但这也不能完全解决问题,我们有时仍会观察到这种情况

在新实例上观察到的日志如下所示。iGate版本使用2.4,非堆模式用于分区缓存。我们的网格使用tcp发现服务,使用s3 bucket进行设置

我也有一些事务缓存,它们是基于 特里洛克

关于其他节点10-83-85-122的信息

另一个连接节点从未启动,并卡在点火启动阶段。日志也不会显示要启动的节点或要启动的ip发现。最终通过自动缩放删除节点

收到交易错误

javax.cache.CacheException: Failed to acquire lock for keys (primary node left grid, retry transaction if possible) [keys=[UserKeyCacheObjectImpl [part=281, 

分区图交换是在存储每段数据的节点之间交换信息的过程。每当拓扑发生变化时,都会发生这种情况

每个节点都向协调器发送一条
GridDhtPartitionsSingleMessage
。协调器收集所有此类消息后,会将
GridDhtPartitionsFullMessage
发送回其他节点。这些消息通过通信SPI发送

但是,如果一些非协调节点不向协调器发送SingleMessage,或者协调器不发送FullMessage,则会发生“未能等待分区映射交换”错误

根据您提供的日志判断,ID=ba6aba6c的节点没有向协调器发送SingleMessage。这可能意味着,通信SPI在那里无法正常工作。确保通信SPI所需的端口可用。通常是47100..47200


此外,连接节点可能会卡在某些东西上。查看其日志以了解发生了什么。

HI@Denis您是对的,另一个节点10-83-85-122没有启动,并且在点火启动过程中卡住,导致其通过aws自动校准被移除。我的问题是为什么它不能加入集群。此外,重新启动活动节点确实导致其重新加入网络。是否有任何原因导致它被卡住,无法从日志中获得任何信息,只是启动点火后的代码被卡住了。
javax.cache.CacheException: Failed to acquire lock for keys (primary node left grid, retry transaction if possible) [keys=[UserKeyCacheObjectImpl [part=281,