Apache flink 普罗米修斯对弗林克失败的工作发出警报?

Apache flink 普罗米修斯对弗林克失败的工作发出警报?,apache-flink,prometheus,Apache Flink,Prometheus,我正试图使用普罗米修斯警报监控我的flink作业的可用性 我尝试了flink_jobmanager_job_正常运行时间/停机时间指标,但它们似乎不适合,因为它们只是在工作失败/完成后才停止被雇佣。 我已经被指出使用numRunningJobs度量,以提醒丢失的作业。我不想使用此解决方案,因为每次部署新作业时,我都必须更新我的prometheus配置 是否有人使用普罗米修斯创建了Flink作业失败警报?普罗米修斯有一个函数,如果度量值不存在,该函数将返回1。因此,您可以将警报表达式设置为 abs

我正试图使用普罗米修斯警报监控我的flink作业的可用性

我尝试了flink_jobmanager_job_正常运行时间/停机时间指标,但它们似乎不适合,因为它们只是在工作失败/完成后才停止被雇佣。 我已经被指出使用numRunningJobs度量,以提醒丢失的作业。我不想使用此解决方案,因为每次部署新作业时,我都必须更新我的prometheus配置

是否有人使用普罗米修斯创建了Flink作业失败警报?

普罗米修斯有一个函数,如果度量值不存在,该函数将返回1。因此,您可以将警报表达式设置为

absent(flink_jobmanager_job_uptime) == 1