Google cloud platform 人工智能平台上Resnet50的随机在线预测误差500和429_Google Cloud Platform_Google Cloud Ml_Gcp Ai Platform Notebook_Gcp Ai Platform Training

Google cloud platform 人工智能平台上Resnet50的随机在线预测误差500和429

google-cloud-platform

Google cloud platform 人工智能平台上Resnet50的随机在线预测误差500和429,google-cloud-platform,google-cloud-ml,gcp-ai-platform-notebook,gcp-ai-platform-training,Google Cloud Platform,Google Cloud Ml,Gcp Ai Platform Notebook,Gcp Ai Platform Training,我在AI平台上部署了一个ResNet50模型（900 MB），最小节点数为1 当我进行推断时，有时会随机得到错误500和429。对于AI平台代码错误（）：错误500:无法加载模型错误429:内存不足我有点困惑，因为这些错误是随机发生的。当这些错误发生时，我会再次播放请求，并在得到好结果后播放请你解释一下我为什么会有这种行为？我如何解决这个问题非常感谢你的回答最好，您每秒的请求数是多少？您使用的服务器型号是什么？你确认你有足够的资源吗例如，要指定四核CPU，请使用gcloud beta

我在AI平台上部署了一个ResNet50模型（900 MB），最小节点数为1

当我进行推断时，有时会随机得到错误500和429。对于AI平台代码错误（）：

错误500:无法加载模型

错误429:内存不足

我有点困惑，因为这些错误是随机发生的。当这些错误发生时，我会再次播放请求，并在得到好结果后播放

请你解释一下我为什么会有这种行为？我如何解决这个问题

非常感谢你的回答

最好，

您每秒的请求数是多少？您使用的服务器型号是什么？你确认你有足够的资源吗

例如，要指定四核CPU，请使用gcloud beta组件，并在命令中添加以下可选标志：--machine type“mls1-c4-m2”。例如：MODEL_VERSION=“cpu_v2”gcloud beta ai平台版本创建$MODEL_VERSION \--MODEL$MODEL_NAME \--运行时版本1.14 \--python版本3.5 \--framework tensorflow \--源代码$SAVED_MODEL_PATH_cpu \--机器类型“mls1-c4-m2”

20个同时请求。我用了C4或C1火柴。我也有同样的问题。当问题发生时，你能发布日志吗？您是否在仪表板中看到CPU/内存资源和故障之间的任何关联。您好，当发生错误429时，我在日志中得到以下消息：jsonPayload:{@type:“type.googleapis.com/google.cloud.ml.v1.PredictionLogEntry”消息：“预测服务器内存不足，可能是因为模型大小太大。”numInstances:“1”}当发生错误500时，我在日志中得到这条消息：jsonPayload:{@type:{@type:“type.googleapis.com/google.cloud.ml.v1.PredictionLogEntry”消息：“预测失败。”numInstances:“1”}