Google cloud platform 如何利用多个Google Cloud TPU训练单个模型
我在Google cloud platform 如何利用多个Google Cloud TPU训练单个模型,google-cloud-platform,google-compute-engine,google-cloud-tpu,Google Cloud Platform,Google Compute Engine,Google Cloud Tpu,我在us-central1-f地区被分配了多个谷歌云TPU。机器类型均为v2-8 我如何利用我所有的TPU来训练单个型号 us-central1-f区域,因此使用pods似乎不是解决方案。即使pod可用,我拥有的v2-8单元数量与任何pod TPU片尺寸(16、64、128、256)都不匹配,因此我无法在一个pod中全部使用它们。我相信您无法轻松做到这一点。如果您想使用多个TPU训练单个模型,则需要访问具有TPU吊舱的区域。否则,您可以做显而易见的事情:在不同的TPU上训练相同的模型,但使用不同
us-central1-f
地区被分配了多个谷歌云TPU。机器类型均为v2-8
我如何利用我所有的TPU来训练单个型号
us-central1-f
区域,因此使用pods似乎不是解决方案。即使pod可用,我拥有的v2-8单元数量与任何pod TPU片尺寸(16、64、128、256)都不匹配,因此我无法在一个pod中全部使用它们。我相信您无法轻松做到这一点。如果您想使用多个TPU训练单个模型,则需要访问具有TPU吊舱的区域。否则,您可以做显而易见的事情:在不同的TPU上训练相同的模型,但使用不同的超参数作为网格搜索的方法,或者您可以训练多个弱学习者,然后手动组合它们 虽然我找不到明确回答这个问题的文档,但我已经阅读了多篇文章和问题,并得出结论,如果您使用的是v2-8
或v3-8
tpu,则不可能一次使用多个。您必须使用更大的机器,如v2-32
或v3-32
,以确保您可以访问更多的内核,而TFRC程序不会免费提供这些
参考资料:
us-central1-a
的任何具体原因?我收到的TPU是专门为us-central1-f
提供的。例如,如果我移动它们,我将不得不为它们的使用付费,而不是免费的。