Monitoring 当GKE工作负载出现问题时，在Stackdriver中创建事件和通知_Monitoring_Google Kubernetes Engine_Stackdriver

Monitoring 当GKE工作负载出现问题时，在Stackdriver中创建事件和通知

monitoring

Monitoring 当GKE工作负载出现问题时，在Stackdriver中创建事件和通知,monitoring,google-kubernetes-engine,stackdriver,Monitoring,Google Kubernetes Engine,Stackdriver,我有一个gke集群，其中一些工作负载可能会出现引导问题。当工作负载遇到问题时，是否可以创建stackdriver通知例如：在触发CrashLoopBackOff、POD无法导出或工作负载状态为“正常”以外的任何状态持续5分钟时创建事件。您可以使用基于日志的度量来跟踪POD中的所有CrashLoopBackOff状态，使用以下高级查询：不可调度的POD可能会进入crashloopbackoff或无法部署，这只能在API服务器上进行跟踪我们需要考虑的是，基于日志的度量，有必要根据监视版本来调

我有一个gke集群，其中一些工作负载可能会出现引导问题。当工作负载遇到问题时，是否可以创建stackdriver通知

例如：在触发CrashLoopBackOff、POD无法导出或工作负载状态为“正常”以外的任何状态持续5分钟时创建事件。

您可以使用基于日志的度量来跟踪POD中的所有CrashLoopBackOff状态，使用以下高级查询：

不可调度的POD可能会进入

crashloopbackoff

或无法部署，这只能在API服务器上进行跟踪

我们需要考虑的是，基于日志的度量，有必要根据监视版本来调整标签（无论您是遗留的还是非遗留的）-“非遗留”监视和度量在本例中使用

通过基于日志的度量创建度量，您将在监控中找到它们，如

logging/user/xxxx

创建指标后，您可以创建警报策略，在问题发生时通知您。

好建议。由于消息的后面没有提到部署，我只能创建一个“有问题”警报，但没关系。不可调度的POD会生成另一条带有

jsonPayload.reason=“FailedScheduling”

的日志消息，因此这也是可能的。您可以将两者结合起来，在出现任何一种情况时创建一个警报，然后发出“not ok”警报。如果你觉得我的答复有用，请接受：）

resource.type="k8s_pod"
resource.labels.location="us-central1-a"
resource.labels.cluster_name="standard-cluster-1"
"myproject"
jsonPayload.message="Back-off restarting failed container"
resource.labels.pod_name:"myproject"