运行flask restful api的google容器引擎上的延迟峰值

运行flask restful api的google容器引擎上的延迟峰值,flask,kubernetes,google-cloud-platform,google-cloud-sql,google-kubernetes-engine,Flask,Kubernetes,Google Cloud Platform,Google Cloud Sql,Google Kubernetes Engine,我在谷歌容器引擎上运行。flaskrestplusapi调用googleclouddatastore或cloudsql,但这似乎不是问题所在 一天中有几次甚至更多的时候,会出现一个瞬间的潜伏期峰值。重新启动pod可解决此问题,或在5到10分钟内自行解决。当然,这太多了,需要解决 有人知道可能是什么问题,或者有过处理此类问题的经验吗 Thx您可以尝试的一件事是监视实例CPU负载 虽然延迟与使用率峰值不对应,但可能会对CPU负载产生累积影响,并且当CPU达到给定的%时,您正在经历的延迟会发生,需要暂

我在谷歌容器引擎上运行。flaskrestplusapi调用googleclouddatastore或cloudsql,但这似乎不是问题所在

一天中有几次甚至更多的时候,会出现一个瞬间的潜伏期峰值。重新启动pod可解决此问题,或在5到10分钟内自行解决。当然,这太多了,需要解决

有人知道可能是什么问题,或者有过处理此类问题的经验吗


Thx

您可以尝试的一件事是监视实例CPU负载

虽然延迟与使用率峰值不对应,但可能会对CPU负载产生累积影响,并且当CPU达到给定的%时,您正在经历的延迟会发生,需要暂时退出。如果是这种情况,您可以使用集群自动缩放,或者尝试运行更高规格的机器,看看这是否有什么不同。或者,如果您在吊舱/容器上的CPU使用有限,请尝试增加此限制

如果您确信CPU不是问题的原因,那么可以在问题发生时尝试SSH到受影响的实例中,通过负载平衡器发送请求,并使用tcpdump分析进出的流量。您可能能够发现延迟是来自负载平衡器(通过监视到实例的HTTP通信的延迟),还是来自云数据存储或云SQL(来自实例)


或者,尝试在延迟之前和延迟期间使用strace监视相关进程,或者使用dtrace监视整个系统

您可以尝试的一件事是监视实例CPU负载

虽然延迟与使用率峰值不对应,但可能会对CPU负载产生累积影响,并且当CPU达到给定的%时,您正在经历的延迟会发生,需要暂时退出。如果是这种情况,您可以使用集群自动缩放,或者尝试运行更高规格的机器,看看这是否有什么不同。或者,如果您在吊舱/容器上的CPU使用有限,请尝试增加此限制

如果您确信CPU不是问题的原因,那么可以在问题发生时尝试SSH到受影响的实例中,通过负载平衡器发送请求,并使用tcpdump分析进出的流量。您可能能够发现延迟是来自负载平衡器(通过监视到实例的HTTP通信的延迟),还是来自云数据存储或云SQL(来自实例)


或者,尝试在延迟之前和延迟期间使用strace监视相关进程,或者使用dtrace监视整个系统

您所经历的延迟峰值是否与流量增加对应?此外,Flask容器和数据库是否在同一区域/区域?它不会随着流量的增加而增加。运行测试脚本,在10分钟平均300毫秒的稳定响应时间后,出现随机滞后峰值,将响应时间增加到10秒或更长。。db和群集位于同一区域。您遇到的延迟峰值是否与流量增加对应?此外,Flask容器和数据库是否在同一区域/区域?它不会随着流量的增加而增加。运行测试脚本,在10分钟平均300毫秒的稳定响应时间后,出现随机滞后峰值,将响应时间增加到10秒或更长。。数据库和集群位于同一区域。