Apache spark Zookeeper中的作业故障转移处理

Apache spark Zookeeper中的作业故障转移处理,apache-spark,apache-zookeeper,high-availability,failover,Apache Spark,Apache Zookeeper,High Availability,Failover,我正在运行一个由三台机器组成的动物园管理员团队,一台Mesos master作为领导者,另外两台作为追随者。我已经看到,如果我故意让当前的Mesos大师失败/停止,那么其他两个追随者中的任何一个都将被选为Mesos大师。这是我所理解的预期行为 我的问题是,如果我通过一个框架提交一份作业,并且在作业执行期间,如果当前的Mesos主控失败,那么该作业中的剩余任务将如何由下一位当选的Mesos领导人处理 例如,假设在sparkPi示例的执行过程中,如果当前Mesos主机出现故障,那么我如何告诉下一个选

我正在运行一个由三台机器组成的动物园管理员团队,一台Mesos master作为领导者,另外两台作为追随者。我已经看到,如果我故意让当前的Mesos大师失败/停止,那么其他两个追随者中的任何一个都将被选为Mesos大师。这是我所理解的预期行为

我的问题是,如果我通过一个框架提交一份作业,并且在作业执行期间,如果当前的Mesos主控失败,那么该作业中的剩余任务将如何由下一位当选的Mesos领导人处理


例如,假设在sparkPi示例的执行过程中,如果当前Mesos主机出现故障,那么我如何告诉下一个选定的主机从上一个主机离开的位置拾取任务?此故障切换将由zookeeper自动处理还是需要任何配置更改。

故障切换将由zookeeper和Mesos framework处理。参考文档:您将看到,当您在Mesos master HA模式下运行时,您需要指定zookeeper仲裁,而不是Mesos master:
mesos://zk://host1:port1,主机2:port2,…
mesos://zk://host1:port1,主机2:port2,…/mesos