Google cloud platform 找出云ML训练中的瓶颈
我想在塞莱巴训练。培训过程似乎进展非常缓慢,我想找出造成瓶颈的原因。当我使用scale-tier-STANDARD_-1、BASIC_-GPU或者在我6年前的4核CPU笔记本电脑上本地运行时,训练一个时代所需的时间似乎非常相似。在这三种配置中,每个训练步骤大约需要25秒,尽管我注意到每隔一段时间,一个训练步骤需要几分钟 使用基本GPU时,cpu利用率低于.1。我用基本层做了一个实验,master的速度是0.4,每一步大约需要40秒。当使用标准_1时,我得到以下cpu利用率:Google cloud platform 找出云ML训练中的瓶颈,google-cloud-platform,google-cloud-ml,google-cloud-ml-engine,Google Cloud Platform,Google Cloud Ml,Google Cloud Ml Engine,我想在塞莱巴训练。培训过程似乎进展非常缓慢,我想找出造成瓶颈的原因。当我使用scale-tier-STANDARD_-1、BASIC_-GPU或者在我6年前的4核CPU笔记本电脑上本地运行时,训练一个时代所需的时间似乎非常相似。在这三种配置中,每个训练步骤大约需要25秒,尽管我注意到每隔一段时间,一个训练步骤需要几分钟 使用基本GPU时,cpu利用率低于.1。我用基本层做了一个实验,master的速度是0.4,每一步大约需要40秒。当使用标准_1时,我得到以下cpu利用率: 船长:.28 工人
- 船长:.28
- 工人:.21
- 参数服务器(ps):.48
不确定这是否有帮助,但它可能会提供一些指针。您能提供指向您提到的其他培训日志的指针吗?此人似乎每批平均不到2秒: