Monitoring 监控QOS的工具

Monitoring 监控QOS的工具,monitoring,graphite,qos,Monitoring,Graphite,Qos,在我的项目中 我们抓取x台服务器。 每个服务器的用户数从1到n不等。 我们为每个用户抓取1到z项。 目前,我们正在使用graphite监控QOS。我们正在存储爬网项目所需的时间 x.time_taken 这种方法的问题是,如果只有一个用户受到影响,我们就会得到关于QOS的错误警报 回答/监控以下问题的正确工具/技术是什么: 仅当最小k用户受到影响时发出警报。[不是事件数量] 受影响的用户列表。 我认为石墨和statsd是不正确的工具。回答这两个问题的更好工具是什么 您所要求的通常称为服务监控。

在我的项目中

我们抓取x台服务器。 每个服务器的用户数从1到n不等。 我们为每个用户抓取1到z项。 目前,我们正在使用graphite监控QOS。我们正在存储爬网项目所需的时间

x.time_taken
这种方法的问题是,如果只有一个用户受到影响,我们就会得到关于QOS的错误警报

回答/监控以下问题的正确工具/技术是什么:

仅当最小k用户受到影响时发出警报。[不是事件数量] 受影响的用户列表。
我认为石墨和statsd是不正确的工具。回答这两个问题的更好工具是什么

您所要求的通常称为服务监控。出于非常好的原因,您希望了解事件对服务的影响,而不仅仅是事件已经发生

这种方法的优点正是您在需求中所陈述的——您可以将注意力集中在影响大部分用户群的事件上,并且您可以立即获得受影响用户的列表

IMHO的主要缺点是服务监视通常比简单的性能或事件/警报监视复杂得多。它还常常依赖于一种服务模式,根据我的经验,这种模式很难建立,甚至更难跟上时代

例如,如果系统中的某台服务器显示出明显的速度减慢或故障,则根据您的体系结构,这可能会影响使用依赖该服务器的服务的所有用户,或者如果存在负载平衡机制或冗余机制,这可能会影响非常小的子集,甚至一开始根本没有

您需要在服务监控模型中反映此体系结构,并且在每次更新系统体系结构或部署时都对其进行更改

如果您的系统足够静态或关键,足以保证投资,那么这可能是值得的。如果不是这样,那么一个简单的折衷办法可能只是更新您正在进行的图形和警报,以便在一个服务器上设置的用户数或所有用户的平均响应时间显著增加时发出警报

这可能会给您带来您想要的大部分好处,而无需投资于服务监控解决方案的额外复杂性

如果您确实希望扩展您的监控方法,并希望坚持使用开源工具,那么如果您的重点是基础设施,或者有很多免费层的web服务监控解决方案,如pingdom,那么我将首先介绍NAGIOS: