Monitoring 检查进程是否正在Bosun上运行

Monitoring 检查进程是否正在Bosun上运行,monitoring,bosun,Monitoring,Bosun,我正在测试(通过堆栈交换的开源监视和警报系统),我对如何监视“布尔”指标感到非常困惑 如果某个进程未运行,我希望收到警报 为了收集指标,我尝试了两种方法: 在中,我看到一些进程可以配置,但我没有收到任何相关指标。我是否需要任何特殊配置来启用这些流程检查 我已经创建了一个自定义收集器来计算这些进程 为了获得警报,我创建了以下规则: alert test { template = test crit = avg(q("avg:myprocess.running{host=*}", "10

我正在测试(通过堆栈交换的开源监视和警报系统),我对如何监视“布尔”指标感到非常困惑

如果某个进程未运行,我希望收到警报

为了收集指标,我尝试了两种方法:

  • 在中,我看到一些进程可以配置,但我没有收到任何相关指标。我是否需要任何特殊配置来启用这些流程检查

  • 我已经创建了一个自定义收集器来计算这些进程

为了获得警报,我创建了以下规则:

alert test {
  template = test
  crit = avg(q("avg:myprocess.running{host=*}", "10m", "")) < 1
}
警报测试{
模板=测试
crit=avg(q(“avg:myprocess.running{host=*}”,“10m”和“”)<1
}
这是正确的方法还是有更好的方法?

选项
  • 如果您有警报并且正在使用OpenTSDB,当标记集“消失”(检查持续时间的2倍内没有数据)时,警报将变为未知。然后你就可以把这个未知的词理解为“Down”
  • 如果指标被发送,不管它是上下(即,总是有0或1,你可以对此发出警告。这里唯一的一点是,平均值并没有真正意义(除非你在做模糊逻辑)。因此,你可能想使用
    last
    max
    min
  • 形态 SCOCollector conf在每台主机上运行。配置行应与您指定的文档链接中指定的一致。还要记住,您的示例警报没有warnNotification或critNotification,因此它将仅位于仪表板上(不会设置电子邮件或http帖子)

    标记集和OpenTSDB查询
    理解“avg:myprocess.running{host=*}”中的第一个参数很重要因此,avg意味着获取所有未指定的标记并将其平均。因此,例如,如果您也有一个ID标记,如我们的scollector标记,您可能希望在查询字符串中执行
    sum
    ,而不是
    avg
    ,并在进程少于一个时发出警报。

    您是否有使用选项#1?I'm cur使用
    count(“sum:win.proc.thread\u count$filter”、“5m”和“)
    如何将值与“unknown”进行比较?