Google cloud platform 如何解决GCP AI预测平台中的5xx错误？_Google Cloud Platform_Tensorflow Serving_Google Cloud Ml_Google Cloud Ai_Google Ai Platform

Google cloud platform 如何解决GCP AI预测平台中的5xx错误？

google-cloud-platform

Google cloud platform 如何解决GCP AI预测平台中的5xx错误？,google-cloud-platform,tensorflow-serving,google-cloud-ml,google-cloud-ai,google-ai-platform,Google Cloud Platform,Tensorflow Serving,Google Cloud Ml,Google Cloud Ai,Google Ai Platform,我们已经能够将模型（自定义预测和Tensorflow SavedModel格式）部署到AI预测平台上，基本测试表明，这些模型至少可以用于在线预测。我们现在正在尝试在将其投入生产之前进行一点负载测试，并处理一些稳定性问题我们看到了各种各样的错误- 429-“流量超过服务容量。减少流量或缩小型号” 503-“上游连接错误或在收割台之前断开/重置。重置原因：连接失败” 504-“等待通知超时。” 我们已经实现了一种指数退避方法，随着时间的推移，这种方法通常可以解决上述问题。然而，我们要确保我们了解发

我们已经能够将模型（自定义预测和Tensorflow SavedModel格式）部署到AI预测平台上，基本测试表明，这些模型至少可以用于在线预测。我们现在正在尝试在将其投入生产之前进行一点负载测试，并处理一些稳定性问题

我们看到了各种各样的错误- 429-“流量超过服务容量。减少流量或缩小型号” 503-“上游连接错误或在收割台之前断开/重置。重置原因：连接失败” 504-“等待通知超时。”

我们已经实现了一种指数退避方法，随着时间的推移，这种方法通常可以解决上述问题。然而，我们要确保我们了解发生了什么

429看起来很简单——等待事情的发展

对于503/504错误，我们不确定原因是什么，以及如何解决/消除。我们已经处理了批大小（根据-似乎它没有对较大的批进行任何内部优化）、机器大小等问题。不确定这是否是资源问题，尽管我们在较小的批大小（实例数）中看到了这些错误

还有其他人遇到过这些问题吗？有什么最佳实践建议吗？谢谢

AI平台使用的机器类型是什么？我们已经尝试了几种不同的尺寸，现在我们使用的是n1-highcpu-8。（为了测试自定义预测，我们使用的是mls1-c1-m2机器。）您真的需要n1-highcpu-8吗？或者只是为了测试你在更大的虚拟机上是否有更少的错误？我们仍在测试，试图找出最佳点。用N1-HiCPU-4测试，我们看到错误率高得多，性能也慢。你能考虑吗？我还观察到，人工智能平台服务的规模奇怪，远不如云运行。如果你有勇气听我的法国口音。此外，Cloud Run不久将兼容4个CPU。让我知道你是否需要在这方面的帮助，如果它解决了你的问题。