Monitoring 当GKE工作负载出现问题时,在Stackdriver中创建事件和通知

Monitoring 当GKE工作负载出现问题时,在Stackdriver中创建事件和通知,monitoring,google-kubernetes-engine,stackdriver,Monitoring,Google Kubernetes Engine,Stackdriver,我有一个gke集群,其中一些工作负载可能会出现引导问题。当工作负载遇到问题时,是否可以创建stackdriver通知 例如:在触发CrashLoopBackOff、POD无法导出或工作负载状态为“正常”以外的任何状态持续5分钟时创建事件。您可以使用基于日志的度量来跟踪POD中的所有CrashLoopBackOff状态,使用以下高级查询: 不可调度的POD可能会进入crashloopbackoff或无法部署,这只能在API服务器上进行跟踪 我们需要考虑的是,基于日志的度量,有必要根据监视版本来调

我有一个gke集群,其中一些工作负载可能会出现引导问题。当工作负载遇到问题时,是否可以创建stackdriver通知


例如:在触发CrashLoopBackOff、POD无法导出或工作负载状态为“正常”以外的任何状态持续5分钟时创建事件。

您可以使用基于日志的度量来跟踪POD中的所有CrashLoopBackOff状态,使用以下高级查询:

不可调度的POD可能会进入
crashloopbackoff
或无法部署,这只能在API服务器上进行跟踪

我们需要考虑的是,基于日志的度量,有必要根据监视版本来调整标签(无论您是遗留的还是非遗留的)-“非遗留”监视和度量在本例中使用

通过基于日志的度量创建度量,您将在监控中找到它们,如
logging/user/xxxx


创建指标后,您可以创建警报策略,在问题发生时通知您。

好建议。由于消息的后面没有提到部署,我只能创建一个“有问题”警报,但没关系。不可调度的POD会生成另一条带有
jsonPayload.reason=“FailedScheduling”
的日志消息,因此这也是可能的。您可以将两者结合起来,在出现任何一种情况时创建一个警报,然后发出“not ok”警报。如果你觉得我的答复有用,请接受:)
resource.type="k8s_pod"
resource.labels.location="us-central1-a"
resource.labels.cluster_name="standard-cluster-1"
"myproject"
jsonPayload.message="Back-off restarting failed container"
resource.labels.pod_name:"myproject"