如何检测挂起的linux服务?
我注意到在我的一些linux服务器上,linux服务将被挂起。我知道它挂起的唯一方法是依赖于服务的操作失败,当我重新启动服务时,它无法停止,但启动正常 如果我做服务状态,它会说它正在运行,如果我做ps-ef | grep,它只会显示该服务运行的一个进程,这是正确的 还有什么我可以查一下它是否挂着的吗?我正试图积极主动地恢复这些服务,并确定它们被挂起的原因 参考服务主要是openstack nova compute和openstack cinder volume。我可以通过rabbitMQ检测到的cinder卷服务开始建立,但nova compute没有发生同样的情况如何检测挂起的linux服务?,linux,centos,openstack,centos6,openstack-nova,Linux,Centos,Openstack,Centos6,Openstack Nova,我注意到在我的一些linux服务器上,linux服务将被挂起。我知道它挂起的唯一方法是依赖于服务的操作失败,当我重新启动服务时,它无法停止,但启动正常 如果我做服务状态,它会说它正在运行,如果我做ps-ef | grep,它只会显示该服务运行的一个进程,这是正确的 还有什么我可以查一下它是否挂着的吗?我正试图积极主动地恢复这些服务,并确定它们被挂起的原因 参考服务主要是openstack nova compute和openstack cinder volume。我可以通过rabbitMQ检测到的
这很难测试,因为正如我所说,我知道的唯一方法是,如果我尝试在OpenStack中的节点上执行某些操作,但它失败或挂起,然后我重新启动服务。你可以使用一些工具,比如脚本,甚至是像Nagios这样的真正的监控工具,完全按照你说的去做——模仿那些依赖服务的操作——这意味着尝试联系相关服务,一旦失败,就会发送某种通知!甚至可以自动重新启动。有关专业服务器或网络相关基础设施管理的问题对于堆栈溢出来说是离题的,除非它们直接涉及编程或编程工具。您可以获得有关服务器故障的帮助。1我没意识到这个网站只用于编程相关问题,这可能是一个很好的选择,可以在那里提问,然后在这里删除。不过,这是你的选择!祝您有个美好的一天!为什么我的答案被否决了?做我所描述的事情确实是在现实世界中监控生产系统的常规做法!是的,甚至可能涉及编程,因为那些Nagios脚本,例如,即使只是Bash脚本,也需要编程。我的答案与Anony Mouse的不同,因为他说的是发送与HTTP相关的示例请求,这只是任何linux服务所能做的非常有限的一部分。这就是为什么我说,无论该服务做什么,都需要以正确的方式进行请求模拟。这个请求显然不限于TCP协议!