Monitoring 处理监视器警报过载和脱敏的最佳方法?

Monitoring 处理监视器警报过载和脱敏的最佳方法?,monitoring,alerts,uptime,email-notifications,Monitoring,Alerts,Uptime,Email Notifications,我们正在将监控添加到我们网络上的各种服务器和进程中,目前,如果出现问题,各种监控器将向我的开发小组发送电子邮件-在X分钟内网站上没有客户付款,支持进程的web服务没有响应,每天自动向供应商发送FTP失败,等等。虽然其中一些是信息性的,需要在明天或周一尽快解决,但也可以,例如,一些是关键的,是实际客户停机的结果,因此需要尽快恢复 问题是有太多的电子邮件,人们对它们越来越不敏感,甚至开始忽略那些关键的邮件。尽管我们有一个每周都在变化的point person,但我仍然发现关键警报有时会在那里持续数小

我们正在将监控添加到我们网络上的各种服务器和进程中,目前,如果出现问题,各种监控器将向我的开发小组发送电子邮件-在X分钟内网站上没有客户付款,支持进程的web服务没有响应,每天自动向供应商发送FTP失败,等等。虽然其中一些是信息性的,需要在明天或周一尽快解决,但也可以,例如,一些是关键的,是实际客户停机的结果,因此需要尽快恢复

问题是有太多的电子邮件,人们对它们越来越不敏感,甚至开始忽略那些关键的邮件。尽管我们有一个每周都在变化的point person,但我仍然发现关键警报有时会在那里持续数小时,无人认领且未响应

其他人正在做什么来更好地解决这些类型的监控和警报情况?我应该有一个仪表板或摘要电子邮件,从一天的一切?那么关键的事情是什么呢?群发电子邮件仍然是最好的方式吗?我很想知道其他人在做什么,以确保事情迅速得到解决,但确保开发人员不会不知所措,无所作为。

在RHQ中,我们有一些负面事件-例如,每5次警报只发送一封电子邮件等

此外,还可能有一个警报禁用发送,然后有第二个所谓的恢复警报,即如果错误情况消失,如果出现下一个错误情况,则重新启用发送

有关更多信息,请参阅