Ignite 群集中的节点变得不稳定、无法加入群集中并无限期挂起时引发问题_Ignite

Ignite 群集中的节点变得不稳定、无法加入群集中并无限期挂起时引发问题

ignite

Ignite 群集中的节点变得不稳定、无法加入群集中并无限期挂起时引发问题,ignite,Ignite,您好，我在生产服务器中遇到了Ignite的一个关键问题。我们有两个实例，每个实例的堆大小为8gb。有时由于长时间gc暂停或网络问题，我们的一个实例被停止。这会导致aws自动缩放启动并启动另一个实例。这很好，但我们已经观察到，在这种状态下，网格变得不稳定，我们的新ignite instances永远无法加入拓扑并永久挂起，从而导致新的自动缩放实例一次又一次出现。解决方法是重新启动群集中的其他实例，因为这样做会导致节点再次加入。但理想情况是在prod中在自动缩放的情况下，这应该会自动发生。也增加了

您好，我在生产服务器中遇到了Ignite的一个关键问题。我们有两个实例，每个实例的堆大小为8gb。有时由于长时间gc暂停或网络问题，我们的一个实例被停止。这会导致aws自动缩放启动并启动另一个实例。这很好，但我们已经观察到，在这种状态下，网格变得不稳定，我们的新ignite instances永远无法加入拓扑并永久挂起，从而导致新的自动缩放实例一次又一次出现。解决方法是重新启动群集中的其他实例，因为这样做会导致节点再次加入。但理想情况是在prod中在自动缩放的情况下，这应该会自动发生。也增加了更长的故障检测超时时间，但这也不能完全解决问题，我们有时仍会观察到这种情况

在新实例上观察到的日志如下所示。iGate版本使用2.4，非堆模式用于分区缓存。我们的网格使用tcp发现服务，使用s3 bucket进行设置

我也有一些事务缓存，它们是基于特里洛克

关于其他节点10-83-85-122的信息
另一个连接节点从未启动，并卡在点火启动阶段。日志也不会显示要启动的节点或要启动的ip发现。最终通过自动缩放删除节点
收到交易错误

javax.cache.CacheException: Failed to acquire lock for keys (primary node left grid, retry transaction if possible) [keys=[UserKeyCacheObjectImpl [part=281,

分区图交换是在存储每段数据的节点之间交换信息的过程。每当拓扑发生变化时，都会发生这种情况
每个节点都向协调器发送一条
GridDhtPartitionsSingleMessage
。协调器收集所有此类消息后，会将
GridDhtPartitionsFullMessage
发送回其他节点。这些消息通过通信SPI发送
但是，如果一些非协调节点不向协调器发送SingleMessage，或者协调器不发送FullMessage，则会发生“未能等待分区映射交换”错误
根据您提供的日志判断，ID=ba6aba6c的节点没有向协调器发送SingleMessage。这可能意味着，通信SPI在那里无法正常工作。确保通信SPI所需的端口可用。通常是47100..47200

此外，连接节点可能会卡在某些东西上。查看其日志以了解发生了什么。
HI@Denis您是对的，另一个节点10-83-85-122没有启动，并且在点火启动过程中卡住，导致其通过aws自动校准被移除。我的问题是为什么它不能加入集群。此外，重新启动活动节点确实导致其重新加入网络。是否有任何原因导致它被卡住，无法从日志中获得任何信息，只是启动点火后的代码被卡住了。
javax.cache.CacheException: Failed to acquire lock for keys (primary node left grid, retry transaction if possible) [keys=[UserKeyCacheObjectImpl [part=281,