Google cloud platform 找出云ML训练中的瓶颈_Google Cloud Platform_Google Cloud Ml_Google Cloud Ml Engine

Google cloud platform 找出云ML训练中的瓶颈

google-cloud-platform

Google cloud platform 找出云ML训练中的瓶颈,google-cloud-platform,google-cloud-ml,google-cloud-ml-engine,Google Cloud Platform,Google Cloud Ml,Google Cloud Ml Engine,我想在塞莱巴训练。培训过程似乎进展非常缓慢，我想找出造成瓶颈的原因。当我使用scale-tier-STANDARD_-1、BASIC_-GPU或者在我6年前的4核CPU笔记本电脑上本地运行时，训练一个时代所需的时间似乎非常相似。在这三种配置中，每个训练步骤大约需要25秒，尽管我注意到每隔一段时间，一个训练步骤需要几分钟使用基本GPU时，cpu利用率低于.1。我用基本层做了一个实验，master的速度是0.4，每一步大约需要40秒。当使用标准_1时，我得到以下cpu利用率：船长：.28 工人

我想在塞莱巴训练。培训过程似乎进展非常缓慢，我想找出造成瓶颈的原因。当我使用scale-tier-STANDARD_-1、BASIC_-GPU或者在我6年前的4核CPU笔记本电脑上本地运行时，训练一个时代所需的时间似乎非常相似。在这三种配置中，每个训练步骤大约需要25秒，尽管我注意到每隔一段时间，一个训练步骤需要几分钟

使用基本GPU时，cpu利用率低于.1。我用基本层做了一个实验，master的速度是0.4，每一步大约需要40秒。当使用标准_1时，我得到以下cpu利用率：

船长：.28
工人：.21
参数服务器（ps）：.48

在使用单个工作进程的BASIC上运行时，CPU利用率是否应该接近100%

按照这个速度，训练塞莱巴的一个时代需要22个小时，图像缩小到64x64。从repo中查看其他人的培训日志，这似乎比使用GPU培训的其他人的培训日志要高得多。

我只是在这里猜测——但通过查看您指出的代码，培训有两个作用：

使用feed，即在python中加载数据——使用reader queues（）可能更快

这更有可能。代码一次读取一个文件或一批文件，但每个文件都会导致对云存储的单独请求，因此不会从缓冲等优化中受益。这意味着您的代码可能受I/O限制，这可能解释了CPU使用率较低的原因。此外，添加GPU可能会进一步将工作卸载到GPU上，并降低CPU利用率。。。它仍在忙着做I/O

不确定这是否有帮助，但它可能会提供一些指针。

您能提供指向您提到的其他培训日志的指针吗？此人似乎每批平均不到2秒：