Monitoring 普罗米修斯黑盒探测器_Monitoring_Prometheus_Prometheus Alertmanager_Prometheus Blackbox Exporter

Monitoring 普罗米修斯黑盒探测器

monitoring prometheus

Monitoring 普罗米修斯黑盒探测器,monitoring,prometheus,prometheus-alertmanager,prometheus-blackbox-exporter,Monitoring,Prometheus,Prometheus Alertmanager,Prometheus Blackbox Exporter,我有大约1000个使用HTTP探测的目标 job="http_2xx", env="prod", instance="x.x.x.x" job="http_2xx", env="test", instance="y.y.y.y" job="http_2xx", env="dev", instance="z.z.z.z"

我有大约1000个使用HTTP探测的目标

job="http_2xx", env="prod", instance="x.x.x.x"
job="http_2xx", env="test", instance="y.y.y.y"
job="http_2xx", env="dev", instance="z.z.z.z"

我想知道目标公司：

环境在过去10分钟内的故障率

env在过去10分钟内的故障率增加

好奇以下是什么：

我所接触到的最近的一次是在10分钟内发现env可运行：

avg(avg_over_time(probe_success{job="http_2xx", env="prod"}[10m]) * 100)

环境在过去10分钟内的故障率。最简单的方法是：

sum（rate（probe_success{job=“http_2xx”}[10m]）*100）by（env）

这将返回成功探测的百分比，您可以反向添加

*（-1）+100

在上面的查询中添加

rease

函数对我来说不起作用，计算超过10m的速率和增加速率似乎是多余的。如果愿意，您可以用

增加

替换速率函数

第一个查询非常接近，它将计算1000万次期间成功探测的增加量。通过添加

==0

并通过“env”变量求和，可以使其显示失败探测的增加

sum（增加（probe_success{job=“http_2xx”}==0[10m]）个（env）

您的第二个查询将返回prod环境中超过5m的成功请求百分比

avg(avg_over_time(probe_success{job="http_2xx", env="prod"}[10m]) * 100)