Apache zookeeper 什么条件导致马拉松式领导人选举?

Apache zookeeper 什么条件导致马拉松式领导人选举?,apache-zookeeper,mesos,marathon,mesosphere,Apache Zookeeper,Mesos,Marathon,Mesosphere,我正在使用Mesos和Marathon来管理应用程序部署,在Marathon中遇到了这个错误,也就是说,在部署过程中,领导选举会将实例扩展到0。领导人选举非常频繁(大约每30分钟一次),所以我经常提到这个问题 我知道每30分钟一次是非常不规则的,因为我已经升级到Marathon 1.3.10,并且在过去的两天里一直没有选举,但是多久“正常”?领导人退位/选举是在正常情况下发生的,还是我应该预期0次选举,除非存在潜在问题?一位同事向我建议,“领导人选举是正常的”,并且“一定数量的选举是正常的,是可

我正在使用Mesos和Marathon来管理应用程序部署,在Marathon中遇到了这个错误,也就是说,在部署过程中,领导选举会将实例扩展到0。领导人选举非常频繁(大约每30分钟一次),所以我经常提到这个问题


我知道每30分钟一次是非常不规则的,因为我已经升级到Marathon 1.3.10,并且在过去的两天里一直没有选举,但是多久“正常”?领导人退位/选举是在正常情况下发生的,还是我应该预期0次选举,除非存在潜在问题?一位同事向我建议,“领导人选举是正常的”,并且“一定数量的选举是正常的,是可以预期的”。我只是不相信这一点,我想确切地知道。

如果您的马拉松比赛每30分钟重新选举一次,这是不正常的。在正常情况下,马拉松比赛不应退位或重新选举新的领导者,直到进行维护(更新或重新启动)。尽管发生这种情况可能是由4个主要问题引起的(所有问题都会导致超时):

  • 马拉松表现——当马拉松出现表现问题时,其中一个症状就是失去领导力。这是因为马拉松在给定的时间间隔内不会对Zookeeper做出反应,并且会被标记为“消失”
  • Marathon Zookeeper连接问题-如果网络延迟过高(例如,Zookeeper群集位于与Marathon不同的DC),则某些更新可能会超时。这将导致领导层的丧失
  • Zookeeper的表现-当Zookeeper有很多工作要做时,它会超时一些请求,导致Marathon失去领导
  • 马拉松被
    DELETE/v2/leader
  • 要解决性能问题,请执行以下步骤

  • 分享你的马拉松
  • 监视-启用度量,但请记住对其进行配置
  • 更新至1.3.10或更高版本
  • 最小化Zookeeper通信延迟和对象大小
  • 调优JVM-添加更多堆和CPU:)
  • 不要使用事件总线-如果确实需要,请使用过滤的SSE,并接受它是异步的,并且事件最多只传递一次
  • 如果需要任务生命周期事件,请使用自定义执行器
  • 与许多单独部署相比,更喜欢批部署

  • 这是一个不错的答案,但如果你能直接回答我的问题,我会很高兴的。“有什么想法吗?”米凯舍罗夫我重新措辞了我的回答。现在好点了吗?