Google cloud platform 如何解决GCP AI预测平台中的5xx错误?

Google cloud platform 如何解决GCP AI预测平台中的5xx错误?,google-cloud-platform,tensorflow-serving,google-cloud-ml,google-cloud-ai,google-ai-platform,Google Cloud Platform,Tensorflow Serving,Google Cloud Ml,Google Cloud Ai,Google Ai Platform,我们已经能够将模型(自定义预测和Tensorflow SavedModel格式)部署到AI预测平台上,基本测试表明,这些模型至少可以用于在线预测。我们现在正在尝试在将其投入生产之前进行一点负载测试,并处理一些稳定性问题 我们看到了各种各样的错误- 429-“流量超过服务容量。减少流量或缩小型号” 503-“上游连接错误或在收割台之前断开/重置。重置原因:连接失败” 504-“等待通知超时。” 我们已经实现了一种指数退避方法,随着时间的推移,这种方法通常可以解决上述问题。然而,我们要确保我们了解发

我们已经能够将模型(自定义预测和Tensorflow SavedModel格式)部署到AI预测平台上,基本测试表明,这些模型至少可以用于在线预测。我们现在正在尝试在将其投入生产之前进行一点负载测试,并处理一些稳定性问题

我们看到了各种各样的错误- 429-“流量超过服务容量。减少流量或缩小型号” 503-“上游连接错误或在收割台之前断开/重置。重置原因:连接失败” 504-“等待通知超时。”

我们已经实现了一种指数退避方法,随着时间的推移,这种方法通常可以解决上述问题。然而,我们要确保我们了解发生了什么

429看起来很简单——等待事情的发展

对于503/504错误,我们不确定原因是什么,以及如何解决/消除。我们已经处理了批大小(根据-似乎它没有对较大的批进行任何内部优化)、机器大小等问题。不确定这是否是资源问题,尽管我们在较小的批大小(实例数)中看到了这些错误


还有其他人遇到过这些问题吗?有什么最佳实践建议吗?谢谢

AI平台使用的机器类型是什么?我们已经尝试了几种不同的尺寸,现在我们使用的是n1-highcpu-8。(为了测试自定义预测,我们使用的是mls1-c1-m2机器。)您真的需要n1-highcpu-8吗?或者只是为了测试你在更大的虚拟机上是否有更少的错误?我们仍在测试,试图找出最佳点。用N1-HiCPU-4测试,我们看到错误率高得多,性能也慢。你能考虑吗?我还观察到,人工智能平台服务的规模奇怪,远不如云运行。如果你有勇气听我的法国口音。此外,Cloud Run不久将兼容4个CPU。让我知道你是否需要在这方面的帮助,如果它解决了你的问题。