Google cloud platform AI平台无详细信息-当前尝试发生内部错误_Google Cloud Platform_Google Cloud Ml_Google Ai Platform

Google cloud platform AI平台无详细信息-当前尝试发生内部错误

google-cloud-platform

Google cloud platform AI平台无详细信息-当前尝试发生内部错误,google-cloud-platform,google-cloud-ml,google-ai-platform,Google Cloud Platform,Google Cloud Ml,Google Ai Platform,我正在使用自定义容器运行超参数优化作业。当我运行少量步骤的作业时，一切正常。问题在于步骤的数量更多（这意味着更长的作业）-它们以信息量不大的消息“当前尝试发生内部错误”结束我有三个怀疑：我的机器的配置不是最优的——我的工作使用numpy进行大量计算。我注意到，在所有试验中，主机、参数服务器和工人的CPU使用率都在100%左右。老实说，我希望它是100%只为工人（或100%只为硕士，因为我不运行分布式培训）。这意味着我不太明白这些不同的机器类型是如何用于超参数调优的。我无法找到任何关于它的详细

我正在使用自定义容器运行超参数优化作业。当我运行少量步骤的作业时，一切正常。问题在于步骤的数量更多（这意味着更长的作业）-它们以信息量不大的消息“当前尝试发生内部错误”结束

我有三个怀疑：

我的机器的配置不是最优的——我的工作使用numpy进行大量计算。我注意到，在所有试验中，主机、参数服务器和工人的CPU使用率都在100%左右。老实说，我希望它是100%只为工人（或100%只为硕士，因为我不运行分布式培训）。这意味着我不太明白这些不同的机器类型是如何用于超参数调优的。我无法找到任何关于它的详细资料

中间数据每隔几步就保存一次。也许我储蓄太多了？有没有办法检查机器的存储使用情况

谷歌的基础设施存在问题

下面是我的配置文件的开头

trainingInput:
  scaleTier: CUSTOM
  masterType: n1-highcpu-16
  workerType: n1-highcpu-16
  parameterServerType: n1-standard-4
  evaluatorType: n1-standard-4
  workerCount: 4
  parameterServerCount: 1
  evaluatorCount: 1
  hyperparameters:
    goal: MINIMIZE
    hyperparameterMetricTag: "cumulative_regret"
    maxTrials: 108
    maxParallelTrials: 4
    enableTrialEarlyStopping: False
    algorithm: GRID_SEARCH

你能用你的工作id向cloudml发送电子邮件吗-feedback@google.com请在内部，我们尝试修复所有导致作业失败的服务问题，但发布修复可能需要一些时间。我们希望与您合作，尽快解除阻止您的用例。您是否可以向cloudml发送一封包含您的工作id的电子邮件-feedback@google.com请在内部，我们尝试修复所有导致作业失败的服务问题，但发布修复可能需要一些时间。我们希望与您合作，尽快解除您的用例阻塞。