Google cloud platform AI平台无详细信息-当前尝试发生内部错误
我正在使用自定义容器运行超参数优化作业。当我运行少量步骤的作业时,一切正常。问题在于步骤的数量更多(这意味着更长的作业)-它们以信息量不大的消息“当前尝试发生内部错误”结束 我有三个怀疑:Google cloud platform AI平台无详细信息-当前尝试发生内部错误,google-cloud-platform,google-cloud-ml,google-ai-platform,Google Cloud Platform,Google Cloud Ml,Google Ai Platform,我正在使用自定义容器运行超参数优化作业。当我运行少量步骤的作业时,一切正常。问题在于步骤的数量更多(这意味着更长的作业)-它们以信息量不大的消息“当前尝试发生内部错误”结束 我有三个怀疑: 我的机器的配置不是最优的——我的工作使用numpy进行大量计算。我注意到,在所有试验中,主机、参数服务器和工人的CPU使用率都在100%左右。老实说,我希望它是100%只为工人(或100%只为硕士,因为我不运行分布式培训)。这意味着我不太明白这些不同的机器类型是如何用于超参数调优的。我无法找到任何关于它的详细
trainingInput:
scaleTier: CUSTOM
masterType: n1-highcpu-16
workerType: n1-highcpu-16
parameterServerType: n1-standard-4
evaluatorType: n1-standard-4
workerCount: 4
parameterServerCount: 1
evaluatorCount: 1
hyperparameters:
goal: MINIMIZE
hyperparameterMetricTag: "cumulative_regret"
maxTrials: 108
maxParallelTrials: 4
enableTrialEarlyStopping: False
algorithm: GRID_SEARCH
你能用你的工作id向cloudml发送电子邮件吗-feedback@google.com请在内部,我们尝试修复所有导致作业失败的服务问题,但发布修复可能需要一些时间。我们希望与您合作,尽快解除阻止您的用例。您是否可以向cloudml发送一封包含您的工作id的电子邮件-feedback@google.com请在内部,我们尝试修复所有导致作业失败的服务问题,但发布修复可能需要一些时间。我们希望与您合作,尽快解除您的用例阻塞。