Google cloud platform AI平台无详细信息-当前尝试发生内部错误

Google cloud platform AI平台无详细信息-当前尝试发生内部错误,google-cloud-platform,google-cloud-ml,google-ai-platform,Google Cloud Platform,Google Cloud Ml,Google Ai Platform,我正在使用自定义容器运行超参数优化作业。当我运行少量步骤的作业时,一切正常。问题在于步骤的数量更多(这意味着更长的作业)-它们以信息量不大的消息“当前尝试发生内部错误”结束 我有三个怀疑: 我的机器的配置不是最优的——我的工作使用numpy进行大量计算。我注意到,在所有试验中,主机、参数服务器和工人的CPU使用率都在100%左右。老实说,我希望它是100%只为工人(或100%只为硕士,因为我不运行分布式培训)。这意味着我不太明白这些不同的机器类型是如何用于超参数调优的。我无法找到任何关于它的详细

我正在使用自定义容器运行超参数优化作业。当我运行少量步骤的作业时,一切正常。问题在于步骤的数量更多(这意味着更长的作业)-它们以信息量不大的消息“当前尝试发生内部错误”结束

我有三个怀疑:

  • 我的机器的配置不是最优的——我的工作使用numpy进行大量计算。我注意到,在所有试验中,主机、参数服务器和工人的CPU使用率都在100%左右。老实说,我希望它是100%只为工人(或100%只为硕士,因为我不运行分布式培训)。这意味着我不太明白这些不同的机器类型是如何用于超参数调优的。我无法找到任何关于它的详细资料

  • 中间数据每隔几步就保存一次。也许我储蓄太多了?有没有办法检查机器的存储使用情况

  • 谷歌的基础设施存在问题

  • 下面是我的配置文件的开头

    trainingInput:
      scaleTier: CUSTOM
      masterType: n1-highcpu-16
      workerType: n1-highcpu-16
      parameterServerType: n1-standard-4
      evaluatorType: n1-standard-4
      workerCount: 4
      parameterServerCount: 1
      evaluatorCount: 1
      hyperparameters:
        goal: MINIMIZE
        hyperparameterMetricTag: "cumulative_regret"
        maxTrials: 108
        maxParallelTrials: 4
        enableTrialEarlyStopping: False
        algorithm: GRID_SEARCH
    

    你能用你的工作id向cloudml发送电子邮件吗-feedback@google.com请在内部,我们尝试修复所有导致作业失败的服务问题,但发布修复可能需要一些时间。我们希望与您合作,尽快解除阻止您的用例。您是否可以向cloudml发送一封包含您的工作id的电子邮件-feedback@google.com请在内部,我们尝试修复所有导致作业失败的服务问题,但发布修复可能需要一些时间。我们希望与您合作,尽快解除您的用例阻塞。