Monitoring 监视异构基础架构的推荐解决方案是什么?

Monitoring 监视异构基础架构的推荐解决方案是什么?,monitoring,prometheus,Monitoring,Prometheus,我正在寻找以下用例的监控工具: 收集有关虚拟机的基本指标(cpu使用率、内存使用率、i/o、可用空间) 从SQL Server提取度量(可能运行一些查询) 从外部服务中提取有关处理的信息,即当前正在运行的处理数量和运行时间。我正在考虑编写python脚本,但不知道如何与监控工具相结合 能够绘制图表和管理警报,并且不仅能够发送邮件,而且能够向slack/ms团队发送消息,这将是一件好事 我对Prometheus很感兴趣,因为它有wmi_导出器、节点_导出器、sql导出器、警报管理器,可以向多个

我正在寻找以下用例的监控工具:

  • 收集有关虚拟机的基本指标(cpu使用率、内存使用率、i/o、可用空间)
  • 从SQL Server提取度量(可能运行一些查询)
  • 从外部服务中提取有关处理的信息,即当前正在运行的处理数量和运行时间。我正在考虑编写python脚本,但不知道如何与监控工具相结合
  • 能够绘制图表和管理警报,并且不仅能够发送邮件,而且能够向slack/ms团队发送消息,这将是一件好事
我对Prometheus很感兴趣,因为它有wmi_导出器、节点_导出器、sql导出器、警报管理器,可以向多个目的地发送通知,但我不知道如何处理这个外部服务和python脚本


有什么建议吗?

普罗米修斯绝对可以做你说你需要做的事。其中有些可能并不琐碎,但你绝对可以自己填补空白

例如,通过启动node_exporter并让Prometheus对其进行清理,您基本上可以直接获取机器指标,但我认为它没有关于所有运行进程的信息。后者可能需要您编写一个代理/导出器:一个简单的web服务器,它在
/metrics
上公开度量;有一种方法可以帮助解决这个问题。或者说,如果流程(假设它们是您的代码)是短期批处理作业,那么它们会将度量推到一个新的级别

哦,对于你可能想要的图表/仪表盘,因为普罗米修斯在这方面的能力相当有限,而且格拉法纳与普罗米修斯的结合相当好