Google compute engine 如何处理负载峰值和排队请求？_Google Compute Engine_Kubernetes_Google Cloud Platform

Google compute engine 如何处理负载峰值和排队请求？

google-compute-engine kubernetes google-cloud-platform

Google compute engine 如何处理负载峰值和排队请求？,google-compute-engine,kubernetes,google-cloud-platform,Google Compute Engine,Kubernetes,Google Cloud Platform,在Kubernetes中是否有一个配置，我可以在其中指定在生成新实例之前排队的最小请求数这就是上下文：我们为我们的用例设置了强大的高CPU机器，每个请求都会在服务器上施加大量负载。一切都很完美，直到我们达到特定的数字，比如说。。。300个请求，爬升时间为100毫秒。从那时起，我们将在一段时间内收到“连接拒绝”错误，然后服务器在生成新机器后开始处理这些错误。处理负载峰值的最佳方法是什么？我在应用程序引擎中寻找类似“等待延迟”的配置。我的应用程序部署在Google计算引擎上，由Kubernetes

在Kubernetes中是否有一个配置，我可以在其中指定在生成新实例之前排队的最小请求数

这就是上下文：我们为我们的用例设置了强大的高CPU机器，每个请求都会在服务器上施加大量负载。一切都很完美，直到我们达到特定的数字，比如说。。。300个请求，爬升时间为100毫秒。从那时起，我们将在一段时间内收到“连接拒绝”错误，然后服务器在生成新机器后开始处理这些错误。处理负载峰值的最佳方法是什么？我在应用程序引擎中寻找类似“等待延迟”的配置。我的应用程序部署在Google计算引擎上，由Kubernetes协调

您可以使用

readinessProbe

（请参阅）来指示容器已准备好为请求提供服务，并使用它根据观察到的CPU利用率自动向上/向下扩展应用程序。希望这能有所帮助。

您可以使用

readinessProbe

（请参阅）指示容器已准备好为请求提供服务，并使用它根据观察到的CPU利用率自动上下扩展应用程序。希望这能有所帮助。

如果我只想在探测成功后才开始向pod发送流量，我会指定ReadinessProbe。如果探测失败，而另一个现有pod无法处理更多请求，该怎么办？有一个地方，一些队列必须扮演它的角色来处理所有请求。如果我想只在探测成功时才开始向pod发送流量，我会指定ReadinessProbe。如果探测失败，而另一个现有pod无法处理更多请求，该怎么办？在这个地方，一些队列必须发挥作用来处理所有请求。