Google cloud platform 人工智能平台上Resnet50的随机在线预测误差500和429

Google cloud platform 人工智能平台上Resnet50的随机在线预测误差500和429,google-cloud-platform,google-cloud-ml,gcp-ai-platform-notebook,gcp-ai-platform-training,Google Cloud Platform,Google Cloud Ml,Gcp Ai Platform Notebook,Gcp Ai Platform Training,我在AI平台上部署了一个ResNet50模型(900 MB),最小节点数为1 当我进行推断时,有时会随机得到错误500和429。对于AI平台代码错误(): 错误500:无法加载模型 错误429:内存不足 我有点困惑,因为这些错误是随机发生的。当这些错误发生时,我会再次播放请求,并在得到好结果后播放 请你解释一下我为什么会有这种行为?我如何解决这个问题 非常感谢你的回答 最好,您每秒的请求数是多少?您使用的服务器型号是什么?你确认你有足够的资源吗例如,要指定四核CPU,请使用gcloud beta

我在AI平台上部署了一个ResNet50模型(900 MB),最小节点数为1

当我进行推断时,有时会随机得到错误500和429。对于AI平台代码错误():

  • 错误500:无法加载模型
  • 错误429:内存不足
  • 我有点困惑,因为这些错误是随机发生的。当这些错误发生时,我会再次播放请求,并在得到好结果后播放

    请你解释一下我为什么会有这种行为?我如何解决这个问题

    非常感谢你的回答


    最好,

    您每秒的请求数是多少?您使用的服务器型号是什么?你确认你有足够的资源吗
    例如,要指定四核CPU,请使用gcloud beta组件,并在命令中添加以下可选标志:--machine type“mls1-c4-m2”。例如:MODEL_VERSION=“cpu_v2”gcloud beta ai平台版本创建$MODEL_VERSION \--MODEL$MODEL_NAME \--运行时版本1.14 \--python版本3.5 \--framework tensorflow \--源代码$SAVED_MODEL_PATH_cpu \--机器类型“mls1-c4-m2”
    20个同时请求。我用了C4或C1火柴。我也有同样的问题。当问题发生时,你能发布日志吗?您是否在仪表板中看到CPU/内存资源和故障之间的任何关联。您好,当发生错误429时,我在日志中得到以下消息:jsonPayload:{@type:“type.googleapis.com/google.cloud.ml.v1.PredictionLogEntry”消息:“预测服务器内存不足,可能是因为模型大小太大。”numInstances:“1”}当发生错误500时,我在日志中得到这条消息:jsonPayload:{@type:{@type:“type.googleapis.com/google.cloud.ml.v1.PredictionLogEntry”消息:“预测失败。”numInstances:“1”}