Monitoring Apache Flink的关键健康指标

Monitoring Apache Flink的关键健康指标,monitoring,apache-flink,Monitoring,Apache Flink,我试图找出ApacheFlink的关键健康指标是什么。 Flink文档提供了大量度量标准,很难找出重要的度量标准。一些建议: 如果您使用的是卡夫卡,卡夫卡客户端指标将被转发到Flink的指标系统中。监控消费者滞后会让你知道你的工作是否跟不上数据的流入 如果您的工作没有进展,查看currentLowWatermark可以帮助您确定哪些任务阻碍了进展 监视检查点是明智的lastCheckpointDuration、lastCheckpointSize和numberOf{Completed,Faile

我试图找出ApacheFlink的关键健康指标是什么。 Flink文档提供了大量度量标准,很难找出重要的度量标准。

一些建议:

如果您使用的是卡夫卡,卡夫卡客户端指标将被转发到Flink的指标系统中。监控消费者滞后会让你知道你的工作是否跟不上数据的流入

如果您的工作没有进展,查看
currentLowWatermark
可以帮助您确定哪些任务阻碍了进展

监视检查点是明智的
lastCheckpointDuration
lastCheckpointSize
numberOf{Completed,Failed,InProgress}检查点在这里很有用

正常运行时间
停机时间
可以帮助您跟踪作业在恢复过程中花费的时间,而不是实际运行的时间

社区最近一直在讨论如何更好地检测背压。你会发现