Google cloud platform 谷歌云平台autoscaler太敏感了

Google cloud platform 谷歌云平台autoscaler太敏感了,google-cloud-platform,google-compute-engine,Google Cloud Platform,Google Compute Engine,我有一个向StackDriver报告HAProxy度量的实例组。此实例配置为基于该度量自动缩放。每个实例的容量为300 现在,问题主要是值0,当它变为1(300个容量中的一个!)时,会立即创建并删除一个新实例。这是非常奇怪的行为,同样的用例不会发生在我们的QA环境中(在不同的项目上) 我如何调试这个 负载平衡器配置: ig us-east1 3 / 3 Target LB capacity fraction 100% Max RPS: 1000 (per instance)

我有一个向StackDriver报告HAProxy度量的实例组。此实例配置为基于该度量自动缩放。每个实例的容量为300

现在,问题主要是值0,当它变为1(300个容量中的一个!)时,会立即创建并删除一个新实例。这是非常奇怪的行为,同样的用例不会发生在我们的QA环境中(在不同的项目上)

我如何调试这个

负载平衡器配置:

ig  us-east1    3 / 3   Target LB capacity fraction 100%    Max RPS: 1000 (per instance)    100%
自动缩放器配置

Autoscaling
On
Autoscaling policy
HTTP load balancing usage
Target HTTP load balancing usage
100%
Minimum number of instances
1
Maximum number of instances
2

您可以查看的资源如下:

本文中需要注意的一点是“自动缩放仅适用于最大CPU利用率和每秒/实例的最大请求,因为这些设置的值可以通过添加或删除实例来控制”

HTTP负载平衡器将按照托管实例组正在使用的后端配置创建和删除实例。负载平衡器有一些监控图,您可以查看这些图以获得更多信息

我无法使用您提供的设置重新创建图形显示的行为


HTTP负载平衡器后端服务的健康检查规则可以很好地看到。您可以将其与QA环境的规则进行比较,以确认所有其他变量是否相同。

能否提供更多详细信息?如何配置autoscaler?你能提供更多关于这个指标的信息吗?autoscaler本身应该有一个目标度量,并且应该向上或向下扩展组,以尝试使平均负载达到目标。如果您有一个经常波动的指标,那么这并不理想。我添加了一个实例组容量/利用率的屏幕截图。正如您所看到的,利用率并不接近容量,但实例是随机添加和删除的。您正在以100%的目标平衡LB容量。这不是autoscaler可以正确维护的。一旦每个实例的rps达到1000以上,autoscaler将尝试放大,然后每个实例的rps将急剧下降。由于您只有1到2个实例,目标CPU利用率可能会更好,但这不是问题所在。看看这个图表,有什么理由让它放大吗?你使用的指标是1。目标值为1,这使得LB计算更加困难,导航空间也更小。还请注意,自动缩放基于RPS,而不是该图中显示的自定义度量。LB autoscaler正在控制组的大小