Vmware ignite群集成员身份的更改无法解释

Vmware ignite群集成员身份的更改无法解释,vmware,apache-zookeeper,ignite,Vmware,Apache Zookeeper,Ignite,我正在运行一个12节点的jvm ignite集群。每个jvm都在自己的vmware节点上运行。我使用zookeeper使用tcp发现保持这些ignite节点同步。我在zookeeper日志中看到了很多节点故障 虽然java进程正在运行,但我不知道为什么一些ignite节点会带着“节点失败”之类的错误离开集群。Vmware使用vmotion执行他们称之为“迁移”的操作。我假设这是Vmware节点之间的某种文件系统同步过程。 在ignite的jvm日志中,我还经常看到“转储挂起的对象”和“未能等待分

我正在运行一个12节点的jvm ignite集群。每个jvm都在自己的vmware节点上运行。我使用zookeeper使用tcp发现保持这些ignite节点同步。我在zookeeper日志中看到了很多节点故障 虽然java进程正在运行,但我不知道为什么一些ignite节点会带着“节点失败”之类的错误离开集群。Vmware使用vmotion执行他们称之为“迁移”的操作。我假设这是Vmware节点之间的某种文件系统同步过程。 在ignite的jvm日志中,我还经常看到“转储挂起的对象”和“未能等待分区映射交换”之类的消息。 我的环境设置如下所示:

  • ApacheIgnite1.9.0
  • RHEL 7.2(Maipo)在12个节点中的每个节点上运行
  • oraclejdk1.8
  • 动物园管理员3.4.9
请让我知道你的想法


TIA

虚拟机迁移有时涉及挂起虚拟机。如果虚拟机被挂起,它将无法以干净的方式与集群的其余部分通信,并将显示为关闭状态

通常有两个可能的原因:

  • 内存问题。例如,如果节点进入长GC暂停,它可能会变得无响应,因此会从拓扑中删除。有关更多详细信息,请阅读此处:
  • 网络连接问题。检查虚拟机之间的网络是否稳定。您可能还想尝试增加故障检测超时:

要点#1我看不到任何jvm堆或oome问题。对于第二点,我在相当长的一段时间前已经将时间设置为3分钟。有什么我可以在zookeeper中配置的吗?有没有办法知道是否发生了迁移?类似于日志文件或任何其他系统事件日志?或至少是vm挂起的日志消息或事件。dmesg日志是开始查看的好地方吗?ntp设置会导致任何奇怪的行为吗?12个节点中的一些已启用ntp,而另一些未启用。有些是ntp同步的,有些不是。