已发送Prometheus警报管理器错误的已解决通知

已发送Prometheus警报管理器错误的已解决通知,prometheus,prometheus-alertmanager,Prometheus,Prometheus Alertmanager,出于警惕,普罗米修斯的行为不正确 警报将根据情况生成,并正确地发送到不同的通知通道。问题是-在一段时间后,警报解决(在随机时间间隔内,有时在5分钟内,有时在10分钟后),然后在一分钟内重新生成。当我检查条件时,它仍然与警报不解决相匹配 事实上,对于一个特定场景,警报本应处于活动状态6小时,但在此期间,我收到了至少15个已解决的通知,并在解决后重新生成警报。我已经检查了丢失的遥测数据,但遥测数据始终存在。警报条件中没有时间偏移。这没有任何意义,因为对于任何其他警报,它的行为都不是这样的,而且我的生

出于警惕,普罗米修斯的行为不正确

警报将根据情况生成,并正确地发送到不同的通知通道。问题是-在一段时间后,警报解决(在随机时间间隔内,有时在5分钟内,有时在10分钟后),然后在一分钟内重新生成。当我检查条件时,它仍然与警报不解决相匹配

事实上,对于一个特定场景,警报本应处于活动状态6小时,但在此期间,我收到了至少15个已解决的通知,并在解决后重新生成警报。我已经检查了丢失的遥测数据,但遥测数据始终存在。警报条件中没有时间偏移。这没有任何意义,因为对于任何其他警报,它的行为都不是这样的,而且我的生产环境中至少运行了80个警报。以下是简单的查询:

(sum by(pcName)(cm_summary{regState=“p_online”})=0和sum by(pcName)(cm_summary{regState=“nb_online”})=0和sum by(pcName)(cm_summary{regState=“f40_online”})=0)和on(pcName)(sum(cm_summary)by(pcName)>=5)