Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Google cloud platform 找出云ML训练中的瓶颈_Google Cloud Platform_Google Cloud Ml_Google Cloud Ml Engine - Fatal编程技术网

Google cloud platform 找出云ML训练中的瓶颈

Google cloud platform 找出云ML训练中的瓶颈,google-cloud-platform,google-cloud-ml,google-cloud-ml-engine,Google Cloud Platform,Google Cloud Ml,Google Cloud Ml Engine,我想在塞莱巴训练。培训过程似乎进展非常缓慢,我想找出造成瓶颈的原因。当我使用scale-tier-STANDARD_-1、BASIC_-GPU或者在我6年前的4核CPU笔记本电脑上本地运行时,训练一个时代所需的时间似乎非常相似。在这三种配置中,每个训练步骤大约需要25秒,尽管我注意到每隔一段时间,一个训练步骤需要几分钟 使用基本GPU时,cpu利用率低于.1。我用基本层做了一个实验,master的速度是0.4,每一步大约需要40秒。当使用标准_1时,我得到以下cpu利用率: 船长:.28 工人

我想在塞莱巴训练。培训过程似乎进展非常缓慢,我想找出造成瓶颈的原因。当我使用scale-tier-STANDARD_-1、BASIC_-GPU或者在我6年前的4核CPU笔记本电脑上本地运行时,训练一个时代所需的时间似乎非常相似。在这三种配置中,每个训练步骤大约需要25秒,尽管我注意到每隔一段时间,一个训练步骤需要几分钟

使用基本GPU时,cpu利用率低于.1。我用基本层做了一个实验,master的速度是0.4,每一步大约需要40秒。当使用标准_1时,我得到以下cpu利用率:

  • 船长:.28
  • 工人:.21
  • 参数服务器(ps):.48
在使用单个工作进程的BASIC上运行时,CPU利用率是否应该接近100%

按照这个速度,训练塞莱巴的一个时代需要22个小时,图像缩小到64x64。从repo中查看其他人的培训日志,这似乎比使用GPU培训的其他人的培训日志要高得多。

我只是在这里猜测——但通过查看您指出的代码,培训有两个作用:

  • 使用feed,即在python中加载数据——使用reader queues()可能更快

  • 这更有可能。代码一次读取一个文件或一批文件,但每个文件都会导致对云存储的单独请求,因此不会从缓冲等优化中受益。这意味着您的代码可能受I/O限制,这可能解释了CPU使用率较低的原因。此外,添加GPU可能会进一步将工作卸载到GPU上,并降低CPU利用率。。。它仍在忙着做I/O


  • 不确定这是否有帮助,但它可能会提供一些指针。

    您能提供指向您提到的其他培训日志的指针吗?此人似乎每批平均不到2秒: