Monitoring 普罗米修斯黑盒探测器

Monitoring 普罗米修斯黑盒探测器,monitoring,prometheus,prometheus-alertmanager,prometheus-blackbox-exporter,Monitoring,Prometheus,Prometheus Alertmanager,Prometheus Blackbox Exporter,我有大约1000个使用HTTP探测的目标 job="http_2xx", env="prod", instance="x.x.x.x" job="http_2xx", env="test", instance="y.y.y.y" job="http_2xx", env="dev", instance="z.z.z.z"

我有大约1000个使用HTTP探测的目标

job="http_2xx", env="prod", instance="x.x.x.x"
job="http_2xx", env="test", instance="y.y.y.y"
job="http_2xx", env="dev", instance="z.z.z.z"
我想知道目标公司:

  • 环境在过去10分钟内的故障率
  • env在过去10分钟内的故障率增加
  • 好奇以下是什么:
  • 我所接触到的最近的一次是在10分钟内发现env可运行:

    avg(avg_over_time(probe_success{job="http_2xx", env="prod"}[10m]) * 100)
    
  • 环境在过去10分钟内的故障率。最简单的方法是:

    sum(rate(probe_success{job=“http_2xx”}[10m])*100)by(env)

    这将返回成功探测的百分比,您可以反向添加
    *(-1)+100

  • 在上面的查询中添加
    rease
    函数对我来说不起作用,计算超过10m的速率和增加速率似乎是多余的。如果愿意,您可以用
    增加
    替换速率函数

  • 第一个查询非常接近,它将计算1000万次期间成功探测的增加量。通过添加
    ==0
    并通过“env”变量求和,可以使其显示失败探测的增加

    sum(增加(probe_success{job=“http_2xx”}==0[10m])个(env)

    您的第二个查询将返回prod环境中超过5m的成功请求百分比

  • avg(avg_over_time(probe_success{job="http_2xx", env="prod"}[10m]) * 100)