运行flask restful api的google容器引擎上的延迟峰值_Flask_Kubernetes_Google Cloud Platform_Google Cloud Sql_Google Kubernetes Engine

运行flask restful api的google容器引擎上的延迟峰值

flask kubernetes google-cloud-platform

运行flask restful api的google容器引擎上的延迟峰值,flask,kubernetes,google-cloud-platform,google-cloud-sql,google-kubernetes-engine,Flask,Kubernetes,Google Cloud Platform,Google Cloud Sql,Google Kubernetes Engine,我在谷歌容器引擎上运行。flaskrestplusapi调用googleclouddatastore或cloudsql，但这似乎不是问题所在一天中有几次甚至更多的时候，会出现一个瞬间的潜伏期峰值。重新启动pod可解决此问题，或在5到10分钟内自行解决。当然，这太多了，需要解决有人知道可能是什么问题，或者有过处理此类问题的经验吗 Thx您可以尝试的一件事是监视实例CPU负载虽然延迟与使用率峰值不对应，但可能会对CPU负载产生累积影响，并且当CPU达到给定的%时，您正在经历的延迟会发生，需要暂

我在谷歌容器引擎上运行。flaskrestplusapi调用googleclouddatastore或cloudsql，但这似乎不是问题所在

一天中有几次甚至更多的时候，会出现一个瞬间的潜伏期峰值。重新启动pod可解决此问题，或在5到10分钟内自行解决。当然，这太多了，需要解决

有人知道可能是什么问题，或者有过处理此类问题的经验吗

Thx

您可以尝试的一件事是监视实例CPU负载

虽然延迟与使用率峰值不对应，但可能会对CPU负载产生累积影响，并且当CPU达到给定的%时，您正在经历的延迟会发生，需要暂时退出。如果是这种情况，您可以使用集群自动缩放，或者尝试运行更高规格的机器，看看这是否有什么不同。或者，如果您在吊舱/容器上的CPU使用有限，请尝试增加此限制

如果您确信CPU不是问题的原因，那么可以在问题发生时尝试SSH到受影响的实例中，通过负载平衡器发送请求，并使用tcpdump分析进出的流量。您可能能够发现延迟是来自负载平衡器（通过监视到实例的HTTP通信的延迟），还是来自云数据存储或云SQL（来自实例）

或者，尝试在延迟之前和延迟期间使用strace监视相关进程，或者使用dtrace监视整个系统

您可以尝试的一件事是监视实例CPU负载

或者，尝试在延迟之前和延迟期间使用strace监视相关进程，或者使用dtrace监视整个系统

您所经历的延迟峰值是否与流量增加对应？此外，Flask容器和数据库是否在同一区域/区域？它不会随着流量的增加而增加。运行测试脚本，在10分钟平均300毫秒的稳定响应时间后，出现随机滞后峰值，将响应时间增加到10秒或更长。。db和群集位于同一区域。您遇到的延迟峰值是否与流量增加对应？此外，Flask容器和数据库是否在同一区域/区域？它不会随着流量的增加而增加。运行测试脚本，在10分钟平均300毫秒的稳定响应时间后，出现随机滞后峰值，将响应时间增加到10秒或更长。。数据库和集群位于同一区域。