Google compute engine 如何处理负载峰值和排队请求?

Google compute engine 如何处理负载峰值和排队请求?,google-compute-engine,kubernetes,google-cloud-platform,Google Compute Engine,Kubernetes,Google Cloud Platform,在Kubernetes中是否有一个配置,我可以在其中指定在生成新实例之前排队的最小请求数 这就是上下文:我们为我们的用例设置了强大的高CPU机器,每个请求都会在服务器上施加大量负载。一切都很完美,直到我们达到特定的数字,比如说。。。300个请求,爬升时间为100毫秒。从那时起,我们将在一段时间内收到“连接拒绝”错误,然后服务器在生成新机器后开始处理这些错误。处理负载峰值的最佳方法是什么?我在应用程序引擎中寻找类似“等待延迟”的配置。我的应用程序部署在Google计算引擎上,由Kubernetes

在Kubernetes中是否有一个配置,我可以在其中指定在生成新实例之前排队的最小请求数


这就是上下文:我们为我们的用例设置了强大的高CPU机器,每个请求都会在服务器上施加大量负载。一切都很完美,直到我们达到特定的数字,比如说。。。300个请求,爬升时间为100毫秒。从那时起,我们将在一段时间内收到“连接拒绝”错误,然后服务器在生成新机器后开始处理这些错误。处理负载峰值的最佳方法是什么?我在应用程序引擎中寻找类似“等待延迟”的配置。我的应用程序部署在Google计算引擎上,由Kubernetes协调

您可以使用
readinessProbe
(请参阅)来指示容器已准备好为请求提供服务,并使用它根据观察到的CPU利用率自动向上/向下扩展应用程序。希望这能有所帮助。

您可以使用
readinessProbe
(请参阅)指示容器已准备好为请求提供服务,并使用它根据观察到的CPU利用率自动上下扩展应用程序。希望这能有所帮助。

如果我只想在探测成功后才开始向pod发送流量,我会指定ReadinessProbe。如果探测失败,而另一个现有pod无法处理更多请求,该怎么办?有一个地方,一些队列必须扮演它的角色来处理所有请求。如果我想只在探测成功时才开始向pod发送流量,我会指定ReadinessProbe。如果探测失败,而另一个现有pod无法处理更多请求,该怎么办?在这个地方,一些队列必须发挥作用来处理所有请求。