Apache zookeeper Mesos主机:fd=25时关闭失败:未连接传输终结点[107]

Apache zookeeper Mesos主机:fd=25时关闭失败:未连接传输终结点[107],apache-zookeeper,mesos,mesosphere,Apache Zookeeper,Mesos,Mesosphere,当我在QUORUM=2的情况下运行3台mesos master时,它们在当选为领导者1分钟后失败,给出错误: E1015 11:50:35.539562 19150 socket.hpp:174] Shutdown failed on fd=25: Transport endpoint is not connected [107] E1015 11:50:35.539897 19150 socket.hpp:174] Shutdown failed on fd=24: Transport en

当我在QUORUM=2的情况下运行3台mesos master时,它们在当选为领导者1分钟后失败,给出错误:

E1015 11:50:35.539562 19150 socket.hpp:174] Shutdown failed on fd=25: Transport endpoint is not connected [107]

E1015 11:50:35.539897 19150 socket.hpp:174] Shutdown failed on fd=24: Transport endpoint is not connected [107]
他们在一个循环中不断地互相选举,不断地失败和重新选举


如果我将QUORUM设置为1,则一切正常。原因可能是什么?

一个问题是AWS防火墙阻止访问服务器的公共IP,zookeeper正在广播公共IP(设置在advertise_IP中),因此没有人能够相互连接。由于同样的错误,从属服务器也无法连接到主服务器


当我将本地IP设置为播发_IP(以便Zookeeper广播本地IP)时,主机可以通信,仲裁=2起作用。当我删除防火墙规则时,从属服务器可以连接到主服务器。

我们遇到了同样的问题,mesos主服务器日志中充斥着如下消息:

mesos master[27499]:E0616 14:29:39.310302 27523套接字。hpp:174]在fd=67上关闭失败:未连接传输终结点[107]


原来是对/stats.json的loadbalancers运行状况检查,我们昨天遇到了类似的问题,marathon有点奇怪,因为一些应用程序没有部署。奇怪的是,应用程序启动了,但运行状况检查从未变为绿色,因此nixy没有更新nginx

经过大量调查,我们得出了同样的错误:

E0718 18:51:05.836688  5049 socket.hpp:107] Shutdown failed on fd=46: Transport endpoint is not connected [107]
最后,我们发现问题出在选举中,即使我们的法定人数=1(我们有两位大师),但不知怎么的,它失去了自己,一位大师没有与另一位大师沟通


为了解决这个问题,我们使用Marathon API/v2/leader DELETE方法触发了一次新的选举,之后一切正常。

你是向mesos邮件列表发送电子邮件的人吗?已经解决了?是的,就是我。一个问题是,防火墙阻止了到达服务器的公共IP,zookeeper正在广播公共IP(设置在advertise_IP中),所以没有人能够相互连接。由于同样的错误,从属设备也无法连接到主设备。当我删除防火墙规则并将本地IP设置为播发IP时,从机可以连接。但是还没有尝试QUORUM=2。听起来不错,如果您最终能够解决问题或遇到新问题,请将其发送到邮件列表。这样其他人也可以从你的案例中学习。谢谢。:-)很高兴听到:)我肯定会在邮件列表中发布更新。希望我能找到一些解决办法。谢谢我也有同样的问题。这不是一个好主意,但是当我在
/etc/hosts
中添加其他节点的IP时,一切都很好。